eess.AS」カテゴリーアーカイブ

Bridging Speech and Text: Enhancing ASR with Pinyin-to-Character Pre-training in LLMs

要約 大規模言語モデル (LLM) と事前トレーニングされた音声モデルの統合によ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Bridging Speech and Text: Enhancing ASR with Pinyin-to-Character Pre-training in LLMs はコメントを受け付けていません

Learn and Don’t Forget: Adding a New Language to ASR Foundation Models

要約 Foundation ASR モデルは多くの場合、多くの言語をサポートしま … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Learn and Don’t Forget: Adding a New Language to ASR Foundation Models はコメントを受け付けていません

Beyond the binary: Limitations and possibilities of gender-related speech technology research

要約 この論文は、2013 年から 2023 年までに ISCA Intersp … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Beyond the binary: Limitations and possibilities of gender-related speech technology research はコメントを受け付けていません

Leveraging Mixture of Experts for Improved Speech Deepfake Detection

要約 音声ディープフェイクは、個人のセキュリティとコンテンツの信頼性に重​​大な … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Leveraging Mixture of Experts for Improved Speech Deepfake Detection はコメントを受け付けていません

Scenario of Use Scheme: Threat Model Specification for Speaker Privacy Protection in the Medical Domain

要約 病気の検出や監視のために音声録音が頻繁に使用されるようになり、プライバシー … 続きを読む

カテゴリー: cs.AI, cs.CR, cs.SD, eess.AS | Scenario of Use Scheme: Threat Model Specification for Speaker Privacy Protection in the Medical Domain はコメントを受け付けていません

Facial Expression-Enhanced TTS: Combining Face Representation and Emotion Intensity for Adaptive Speech

要約 FEIM-TTS は、顔画像に合わせて感情の強さによって調整され、感情表現 … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Facial Expression-Enhanced TTS: Combining Face Representation and Emotion Intensity for Adaptive Speech はコメントを受け付けていません

Takin: A Cohort of Superior Quality Zero-shot Speech Generation Models

要約 ビッグデータと大規模言語モデル時代の到来により、ゼロショットでパーソナライ … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Takin: A Cohort of Superior Quality Zero-shot Speech Generation Models はコメントを受け付けていません

Takin: A Cohort of Superior Quality Zero-shot Speech Generation Models

要約 ビッグデータと大規模言語モデル時代の到来により、ゼロショットでパーソナライ … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Takin: A Cohort of Superior Quality Zero-shot Speech Generation Models はコメントを受け付けていません

ASR Benchmarking: Need for a More Representative Conversational Dataset

要約 自動音声認識 (ASR) システムは、LibriSpeech や Fleu … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | ASR Benchmarking: Need for a More Representative Conversational Dataset はコメントを受け付けていません

Low Frame-rate Speech Codec: a Codec Designed for Fast High-quality Speech LLM Training and Inference

要約 大規模言語モデル (LLM) は、オーディオを個別のトークンに変換するオー … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Low Frame-rate Speech Codec: a Codec Designed for Fast High-quality Speech LLM Training and Inference はコメントを受け付けていません