eess.AS」カテゴリーアーカイブ

Leveraging Mixture of Experts for Improved Speech Deepfake Detection

要約 音声ディープフェイクは、個人のセキュリティとコンテンツの信頼性に重​​大な … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | コメントする

Scenario of Use Scheme: Threat Model Specification for Speaker Privacy Protection in the Medical Domain

要約 病気の検出や監視のために音声録音が頻繁に使用されるようになり、プライバシー … 続きを読む

カテゴリー: cs.AI, cs.CR, cs.SD, eess.AS | コメントする

Facial Expression-Enhanced TTS: Combining Face Representation and Emotion Intensity for Adaptive Speech

要約 FEIM-TTS は、顔画像に合わせて感情の強さによって調整され、感情表現 … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | コメントする

Takin: A Cohort of Superior Quality Zero-shot Speech Generation Models

要約 ビッグデータと大規模言語モデル時代の到来により、ゼロショットでパーソナライ … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | コメントする

Takin: A Cohort of Superior Quality Zero-shot Speech Generation Models

要約 ビッグデータと大規模言語モデル時代の到来により、ゼロショットでパーソナライ … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | コメントする

ASR Benchmarking: Need for a More Representative Conversational Dataset

要約 自動音声認識 (ASR) システムは、LibriSpeech や Fleu … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | ASR Benchmarking: Need for a More Representative Conversational Dataset はコメントを受け付けていません

Low Frame-rate Speech Codec: a Codec Designed for Fast High-quality Speech LLM Training and Inference

要約 大規模言語モデル (LLM) は、オーディオを個別のトークンに変換するオー … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Low Frame-rate Speech Codec: a Codec Designed for Fast High-quality Speech LLM Training and Inference はコメントを受け付けていません

Pareto Data Framework: Steps Towards Resource-Efficient Decision Making Using Minimum Viable Data (MVD)

要約 このペーパーでは、組み込みシステム、モバイル デバイス、モノのインターネッ … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | Pareto Data Framework: Steps Towards Resource-Efficient Decision Making Using Minimum Viable Data (MVD) はコメントを受け付けていません

Takin: A Cohort of Superior Quality Zero-shot Speech Generation Models

要約 ビッグデータと大規模言語モデル時代の到来により、ゼロショットでパーソナライ … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Takin: A Cohort of Superior Quality Zero-shot Speech Generation Models はコメントを受け付けていません

HLTCOE JHU Submission to the Voice Privacy Challenge 2024

要約 我々は、kNN-VC 法や WavLM 音声変換法などの音声変換ベースのシ … 続きを読む

カテゴリー: cs.LG, eess.AS | HLTCOE JHU Submission to the Voice Privacy Challenge 2024 はコメントを受け付けていません