cs.SD」カテゴリーアーカイブ

Prompt Tuning of Deep Neural Networks for Speaker-adaptive Visual Speech Recognition

要約 Visual Speech Recognition (VSR) は、唇の動 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.SD, eess.AS, eess.IV | Prompt Tuning of Deep Neural Networks for Speaker-adaptive Visual Speech Recognition はコメントを受け付けていません

Music to Dance as Language Translation using Sequence Models

要約 音楽から適切な振り付けを合成することは未解決の問題のままです。 振り付け生 … 続きを読む

カテゴリー: cs.RO, cs.SD, eess.AS | Music to Dance as Language Translation using Sequence Models はコメントを受け付けていません

uDistil-Whisper: Label-Free Data Filtering for Knowledge Distillation in Low-Data Regimes

要約 擬似ラベルを使用して Whisper の知識を小さなモデルに抽出する最近の … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | uDistil-Whisper: Label-Free Data Filtering for Knowledge Distillation in Low-Data Regimes はコメントを受け付けていません

Accelerating Codec-based Speech Synthesis with Multi-Token Prediction and Speculative Decoding

要約 この文書の目標は、音声品質の犠牲を最小限に抑えながら、コーデックベースの音 … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Accelerating Codec-based Speech Synthesis with Multi-Token Prediction and Speculative Decoding はコメントを受け付けていません

GTSinger: A Global Multi-Technique Singing Corpus with Realistic Music Scores for All Singing Tasks

要約 高品質でマルチタスクの歌唱データセットの不足は、既存の歌唱データセットの品 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | GTSinger: A Global Multi-Technique Singing Corpus with Realistic Music Scores for All Singing Tasks はコメントを受け付けていません

Everyday Speech in the Indian Subcontinent

要約 インドには 1,369 の言語があり、そのうち 22 が公用語です。 これ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS, I.2.7 | Everyday Speech in the Indian Subcontinent はコメントを受け付けていません

Detecting Audio-Visual Deepfakes with Fine-Grained Inconsistencies

要約 オーディオビジュアルディープフェイク検出に関する既存の方法は、オーディオデ … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | Detecting Audio-Visual Deepfakes with Fine-Grained Inconsistencies はコメントを受け付けていません

Both Ears Wide Open: Towards Language-Driven Spatial Audio Generation

要約 最近、普及モデルはモノチャンネルオーディオ生成において大きな成功を収めてい … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS | Both Ears Wide Open: Towards Language-Driven Spatial Audio Generation はコメントを受け付けていません

Enhancing Indonesian Automatic Speech Recognition: Evaluating Multilingual Models with Diverse Speech Variabilities

要約 理想的な音声認識モデルは、話し方 (朗読および自発的)、音声コンテキスト … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Enhancing Indonesian Automatic Speech Recognition: Evaluating Multilingual Models with Diverse Speech Variabilities はコメントを受け付けていません

Enhancing Indonesian Automatic Speech Recognition: Evaluating Multilingual Models with Diverse Speech Variabilities

要約 理想的な音声認識モデルは、話し方 (朗読および自発的)、音声コンテキスト … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Enhancing Indonesian Automatic Speech Recognition: Evaluating Multilingual Models with Diverse Speech Variabilities はコメントを受け付けていません