eess.AS」カテゴリーアーカイブ

FlowDubber: Movie Dubbing with LLM-based Semantic-aware Learning and Flow Matching based Voice Enhancing

要約 ムービーダビングは、与えられた短い参照音声のボーカルの音色を維持しながら、 … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | FlowDubber: Movie Dubbing with LLM-based Semantic-aware Learning and Flow Matching based Voice Enhancing はコメントを受け付けていません

Voice Cloning: Comprehensive Survey

要約 音声クローニングは、今日のデジタルの世界で急速に進歩しており、多くの研究者 … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Voice Cloning: Comprehensive Survey はコメントを受け付けていません

Ditto: Motion-Space Diffusion for Controllable Realtime Talking Head Synthesis

要約 拡散モデルの最近の進歩により、微妙な表現と鮮やかなヘッドの動きを備えたトー … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS | Ditto: Motion-Space Diffusion for Controllable Realtime Talking Head Synthesis はコメントを受け付けていません

Addressing Emotion Bias in Music Emotion Recognition and Generation with Frechet Audio Distance

要約 音楽感情の複雑な性質は、特に単一のオーディオエンコーダー、感情分類器、また … 続きを読む

カテゴリー: cs.CL, cs.MM, cs.SD, eess.AS | Addressing Emotion Bias in Music Emotion Recognition and Generation with Frechet Audio Distance はコメントを受け付けていません

Cross-Lingual Speech Emotion Recognition: Humans vs. Self-Supervised Models

要約 音声感情認識(SER)のための自己監視学習(SSL)モデルを利用して、効果 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.HC, cs.SD, eess.AS | Cross-Lingual Speech Emotion Recognition: Humans vs. Self-Supervised Models はコメントを受け付けていません

Semi-Supervised Cognitive State Classification from Speech with Multi-View Pseudo-Labeling

要約 ラベル付けされたデータの欠如は、音声分類タスク、特に認知状態分類などの広範 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.MM, cs.SD, eess.AS | Semi-Supervised Cognitive State Classification from Speech with Multi-View Pseudo-Labeling はコメントを受け付けていません

Revise, Reason, and Recognize: LLM-Based Emotion Recognition via Emotion-Specific Prompts and ASR Error Correction

要約 迅速なエンジニアリングを使用して音声感情を注釈と認識して、最近、大規模な言 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.MM, cs.SD, eess.AS | Revise, Reason, and Recognize: LLM-Based Emotion Recognition via Emotion-Specific Prompts and ASR Error Correction はコメントを受け付けていません

Exploring Acoustic Similarity in Emotional Speech and Music via Self-Supervised Representations

要約 音楽と音楽からの感情の認識は、音響の重複のために類似点を共有しており、これ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.MM, cs.SD, eess.AS | Exploring Acoustic Similarity in Emotional Speech and Music via Self-Supervised Representations はコメントを受け付けていません

End-to-end Audio Deepfake Detection from RAW Waveforms: a RawNet-Based Approach with Cross-Dataset Evaluation

要約 オーディオディープフェイクは、デジタルセキュリティと信頼に対する脅威の高ま … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS | End-to-end Audio Deepfake Detection from RAW Waveforms: a RawNet-Based Approach with Cross-Dataset Evaluation はコメントを受け付けていません

Versatile Framework for Song Generation with Prompt-based Control

要約 Song Generationは、さまざまなプロンプトに基づいて制御可能な … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Versatile Framework for Song Generation with Prompt-based Control はコメントを受け付けていません