eess.AS」カテゴリーアーカイブ

SeACo-Paraformer: A Non-Autoregressive ASR System with Flexible and Effective Hotword Customization Ability

要約 ホットワードのカスタマイズは、ASR 分野に残された重要な問題の 1 つで … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | SeACo-Paraformer: A Non-Autoregressive ASR System with Flexible and Effective Hotword Customization Ability はコメントを受け付けていません

ChinaTelecom System Description to VoxCeleb Speaker Recognition Challenge 2023

要約 この技術レポートでは、VoxCeleb2023 Speaker Recog … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | ChinaTelecom System Description to VoxCeleb Speaker Recognition Challenge 2023 はコメントを受け付けていません

Approximate Nearest Neighbour Phrase Mining for Contextual Speech Recognition

要約 このペーパーでは、コンテキスト エンコーダーの潜在空間からハード ネガティ … 続きを読む

カテゴリー: cs.CL, eess.AS | Approximate Nearest Neighbour Phrase Mining for Contextual Speech Recognition はコメントを受け付けていません

Text-only domain adaptation for end-to-end ASR using integrated text-to-mel-spectrogram generator

要約 私たちは、文字起こしされた音声データ、テキストのみのデータ、またはその両方 … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Text-only domain adaptation for end-to-end ASR using integrated text-to-mel-spectrogram generator はコメントを受け付けていません

Mitigating the Exposure Bias in Sentence-Level Grapheme-to-Phoneme (G2P) Transduction

要約 Text-to-Text Transfer Transformer (T5 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Mitigating the Exposure Bias in Sentence-Level Grapheme-to-Phoneme (G2P) Transduction はコメントを受け付けていません

Allophant: Cross-lingual Phoneme Recognition with Articulatory Attributes

要約 この論文では、多言語音素認識装置 Allophant を提案します。 ター … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS, I.2.7 | Allophant: Cross-lingual Phoneme Recognition with Articulatory Attributes はコメントを受け付けていません

Text Injection for Capitalization and Turn-Taking Prediction in Speech Models

要約 自動音声認識 (ASR) のためのテキスト インジェクションは、ペアになっ … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Text Injection for Capitalization and Turn-Taking Prediction in Speech Models はコメントを受け付けていません

O-1: Self-training with Oracle and 1-best Hypothesis

要約 トレーニングのバイアスを軽減し、音声認識のトレーニングと評価の指標を統合す … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | O-1: Self-training with Oracle and 1-best Hypothesis はコメントを受け付けていません

Adaptive Contextual Biasing for Transducer Based Streaming Speech Recognition

要約 追加のコンテキスト情報を組み込むことにより、ディープ バイアス手法が、パー … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Adaptive Contextual Biasing for Transducer Based Streaming Speech Recognition はコメントを受け付けていません

DiffV2S: Diffusion-based Video-to-Speech Synthesis with Vision-guided Speaker Embedding

要約 最近の研究では、視覚入力のみから音声を再構成するビデオ音声合成において、目 … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS | DiffV2S: Diffusion-based Video-to-Speech Synthesis with Vision-guided Speaker Embedding はコメントを受け付けていません