eess.AS」カテゴリーアーカイブ

Towards General-Purpose Text-Instruction-Guided Voice Conversion

要約 この論文では、「深いトーンでゆっくり発音する」または「元気な少年のような声 … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Towards General-Purpose Text-Instruction-Guided Voice Conversion はコメントを受け付けていません

StemGen: A music generation model that listens

要約 深層学習技術を使用した音楽オーディオのエンドツーエンド生成は、最近爆発的に … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | StemGen: A music generation model that listens はコメントを受け付けていません

MCMChaos: Improvising Rap Music with MCMC Methods and Chaos Theory

要約 先行研究で作成されたラップ音楽のトランスクリプションに基づく新しいフリース … 続きを読む

カテゴリー: cs.CL, cs.HC, cs.SD, eess.AS | MCMChaos: Improvising Rap Music with MCMC Methods and Chaos Theory はコメントを受け付けていません

SD-HuBERT: Sentence-Level Self-Distillation Induces Syllabic Organization in HuBERT

要約 音声の自己教師あり学習 (SSL) におけるデータ駆動型の単位発見により、 … 続きを読む

カテゴリー: cs.CL, eess.AS | SD-HuBERT: Sentence-Level Self-Distillation Induces Syllabic Organization in HuBERT はコメントを受け付けていません

Self-Supervised Models of Speech Infer Universal Articulatory Kinematics

要約 自己教師あり学習 (SSL) ベースの音声モデルは、さまざまな下流タスクで … 続きを読む

カテゴリー: cs.CL, eess.AS | Self-Supervised Models of Speech Infer Universal Articulatory Kinematics はコメントを受け付けていません

Translatotron 3: Speech to Speech Translation with Monolingual Data

要約 この論文では、マスクされたオートエンコーダ、教師なし埋め込みマッピング、お … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Translatotron 3: Speech to Speech Translation with Monolingual Data はコメントを受け付けていません

Exploring Phonetic Context-Aware Lip-Sync For Talking Face Generation

要約 話し顔の生成は、特定の音声と正確に同期する必要がある、自然でリアルな顔を合 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.SD, eess.AS, eess.IV | Exploring Phonetic Context-Aware Lip-Sync For Talking Face Generation はコメントを受け付けていません

DurFlex-EVC: Duration-Flexible Emotional Voice Conversion with Parallel Generation

要約 感情音声変換 (EVC) は、元の言語内容と話者の固有の音声特性を維持しな … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | DurFlex-EVC: Duration-Flexible Emotional Voice Conversion with Parallel Generation はコメントを受け付けていません

VoiceFlow: Efficient Text-to-Speech with Rectified Flow Matching

要約 テキスト読み上げにおける拡散モデルは、その強力な生成能力により一般的な選択 … 続きを読む

カテゴリー: cs.AI, cs.HC, cs.SD, eess.AS | VoiceFlow: Efficient Text-to-Speech with Rectified Flow Matching はコメントを受け付けていません

An Explainable Proxy Model for Multiabel Audio Segmentation

要約 オーディオ信号のセグメンテーションは、自動オーディオ インデックス作成の重 … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS, eess.SP | An Explainable Proxy Model for Multiabel Audio Segmentation はコメントを受け付けていません