
Text-only domain adaptation for end-to-end ASR using integrated text-to-mel-spectrogram generator

要約 私たちは、文字起こしされた音声データ、テキストのみのデータ、またはその両方 … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Text-only domain adaptation for end-to-end ASR using integrated text-to-mel-spectrogram generator はコメントを受け付けていません

Mitigating the Exposure Bias in Sentence-Level Grapheme-to-Phoneme (G2P) Transduction

要約 Text-to-Text Transfer Transformer (T5 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Mitigating the Exposure Bias in Sentence-Level Grapheme-to-Phoneme (G2P) Transduction はコメントを受け付けていません

Allophant: Cross-lingual Phoneme Recognition with Articulatory Attributes

要約 この論文では、多言語音素認識装置 Allophant を提案します。 ター … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS, I.2.7 | Allophant: Cross-lingual Phoneme Recognition with Articulatory Attributes はコメントを受け付けていません

Text Injection for Capitalization and Turn-Taking Prediction in Speech Models

要約 自動音声認識 (ASR) のためのテキスト インジェクションは、ペアになっ … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Text Injection for Capitalization and Turn-Taking Prediction in Speech Models はコメントを受け付けていません

O-1: Self-training with Oracle and 1-best Hypothesis

要約 トレーニングのバイアスを軽減し、音声認識のトレーニングと評価の指標を統合す … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | O-1: Self-training with Oracle and 1-best Hypothesis はコメントを受け付けていません

Adaptive Contextual Biasing for Transducer Based Streaming Speech Recognition

要約 追加のコンテキスト情報を組み込むことにより、ディープ バイアス手法が、パー … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Adaptive Contextual Biasing for Transducer Based Streaming Speech Recognition はコメントを受け付けていません

DiffV2S: Diffusion-based Video-to-Speech Synthesis with Vision-guided Speaker Embedding

要約 最近の研究では、視覚入力のみから音声を再構成するビデオ音声合成において、目 … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS | DiffV2S: Diffusion-based Video-to-Speech Synthesis with Vision-guided Speaker Embedding はコメントを受け付けていません

Whose Emotion Matters? Speaking Activity Localisation without Prior Knowledge

要約 会話中の感情認識 (ERC) のタスクは、たとえばビデオベースの Mult … 続きを読む

カテゴリー: 68T20, cs.CV, cs.LG, cs.NE, cs.SD, eess.AS, I.2.0 | Whose Emotion Matters? Speaking Activity Localisation without Prior Knowledge はコメントを受け付けていません

AudioFormer: Audio Transformer learns audio feature representations from discrete acoustic codes

要約 我々は、AudioFormer という名前のメソッドを提案します。このメソ … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | AudioFormer: Audio Transformer learns audio feature representations from discrete acoustic codes はコメントを受け付けていません

iSTFTNet2: Faster and More Lightweight iSTFT-Based Neural Vocoder Using 1D-2D CNN

要約 逆短時間フーリエ変換ネットワーク (iSTFTNet) は、高速、軽量、高 … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS, stat.ML | iSTFTNet2: Faster and More Lightweight iSTFT-Based Neural Vocoder Using 1D-2D CNN はコメントを受け付けていません