eess.AS」カテゴリーアーカイブ

The First VoicePrivacy Attacker Challenge Evaluation Plan

要約 First VoicePrivacy Attacker Challenge … 続きを読む

カテゴリー: cs.CL, cs.CR, eess.AS | The First VoicePrivacy Attacker Challenge Evaluation Plan はコメントを受け付けていません

Proceedings of The second international workshop on eXplainable AI for the Arts (XAIxArts)

要約 Explainable AI for the Arts (XAIxArts … 続きを読む

カテゴリー: cs.AI, cs.HC, cs.MM, cs.SD, eess.AS | Proceedings of The second international workshop on eXplainable AI for the Arts (XAIxArts) はコメントを受け付けていません

Advocating Character Error Rate for Multilingual ASR Evaluation

要約 自動音声認識 (ASR) システムは従来、英語のデータセットを使用して評価 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Advocating Character Error Rate for Multilingual ASR Evaluation はコメントを受け付けていません

Prompt Tuning of Deep Neural Networks for Speaker-adaptive Visual Speech Recognition

要約 Visual Speech Recognition (VSR) は、唇の動 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.SD, eess.AS, eess.IV | Prompt Tuning of Deep Neural Networks for Speaker-adaptive Visual Speech Recognition はコメントを受け付けていません

Music to Dance as Language Translation using Sequence Models

要約 音楽から適切な振り付けを合成することは未解決の問題のままです。 振り付け生 … 続きを読む

カテゴリー: cs.RO, cs.SD, eess.AS | Music to Dance as Language Translation using Sequence Models はコメントを受け付けていません

uDistil-Whisper: Label-Free Data Filtering for Knowledge Distillation in Low-Data Regimes

要約 擬似ラベルを使用して Whisper の知識を小さなモデルに抽出する最近の … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | uDistil-Whisper: Label-Free Data Filtering for Knowledge Distillation in Low-Data Regimes はコメントを受け付けていません

Accelerating Codec-based Speech Synthesis with Multi-Token Prediction and Speculative Decoding

要約 この文書の目標は、音声品質の犠牲を最小限に抑えながら、コーデックベースの音 … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Accelerating Codec-based Speech Synthesis with Multi-Token Prediction and Speculative Decoding はコメントを受け付けていません

Robust ASR Error Correction with Conservative Data Filtering

要約 大規模言語モデルに基づく誤り訂正 (EC) は、自動音声認識 (ASR) … 続きを読む

カテゴリー: cs.CL, eess.AS | Robust ASR Error Correction with Conservative Data Filtering はコメントを受け付けていません

GTSinger: A Global Multi-Technique Singing Corpus with Realistic Music Scores for All Singing Tasks

要約 高品質でマルチタスクの歌唱データセットの不足は、既存の歌唱データセットの品 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | GTSinger: A Global Multi-Technique Singing Corpus with Realistic Music Scores for All Singing Tasks はコメントを受け付けていません

Open-Source Conversational AI with SpeechBrain 1.0

要約 SpeechBrain は、PyTorch に基づくオープンソースの会話 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.HC, cs.LG, eess.AS | Open-Source Conversational AI with SpeechBrain 1.0 はコメントを受け付けていません