「eess.AS」カテゴリーアーカイブ

Music to Dance as Language Translation using Sequence Models

投稿日: 2024年10月18日作成者: jarxiv

要約音楽から適切な振り付けを合成することは未解決の問題のままです。振り付け生 … 続きを読む →

カテゴリー: cs.RO, cs.SD, eess.AS | コメントを受け付けていません

uDistil-Whisper: Label-Free Data Filtering for Knowledge Distillation in Low-Data Regimes

投稿日: 2024年10月18日作成者: jarxiv

要約擬似ラベルを使用して Whisper の知識を小さなモデルに抽出する最近の … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Accelerating Codec-based Speech Synthesis with Multi-Token Prediction and Speculative Decoding

投稿日: 2024年10月18日作成者: jarxiv

要約この文書の目標は、音声品質の犠牲を最小限に抑えながら、コーデックベースの音 … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

Robust ASR Error Correction with Conservative Data Filtering

投稿日: 2024年10月17日作成者: jarxiv

要約大規模言語モデルに基づく誤り訂正 (EC) は、自動音声認識 (ASR) … 続きを読む →

カテゴリー: cs.CL, eess.AS | コメントを受け付けていません

GTSinger: A Global Multi-Technique Singing Corpus with Realistic Music Scores for All Singing Tasks

投稿日: 2024年10月17日作成者: jarxiv

要約高品質でマルチタスクの歌唱データセットの不足は、既存の歌唱データセットの品 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Open-Source Conversational AI with SpeechBrain 1.0

投稿日: 2024年10月17日作成者: jarxiv

要約 SpeechBrain は、PyTorch に基づくオープンソースの会話 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.HC, cs.LG, eess.AS | コメントを受け付けていません

Everyday Speech in the Indian Subcontinent

投稿日: 2024年10月15日作成者: jarxiv

要約インドには 1,369 の言語があり、そのうち 22 が公用語です。これ … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS, I.2.7 | コメントを受け付けていません

Detecting Audio-Visual Deepfakes with Fine-Grained Inconsistencies

投稿日: 2024年10月15日作成者: jarxiv

要約オーディオビジュアルディープフェイク検出に関する既存の方法は、オーディオデ … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Both Ears Wide Open: Towards Language-Driven Spatial Audio Generation

投稿日: 2024年10月15日作成者: jarxiv

要約最近、普及モデルはモノチャンネルオーディオ生成において大きな成功を収めてい … 続きを読む →

カテゴリー: cs.CV, cs.SD, eess.AS | コメントを受け付けていません

Enhancing Indonesian Automatic Speech Recognition: Evaluating Multilingual Models with Diverse Speech Variabilities

投稿日: 2024年10月15日作成者: jarxiv

要約理想的な音声認識モデルは、話し方 (朗読および自発的)、音声コンテキスト … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

「eess.AS」カテゴリーアーカイブ

Music to Dance as Language Translation using Sequence Models

uDistil-Whisper: Label-Free Data Filtering for Knowledge Distillation in Low-Data Regimes

Accelerating Codec-based Speech Synthesis with Multi-Token Prediction and Speculative Decoding

Robust ASR Error Correction with Conservative Data Filtering

GTSinger: A Global Multi-Technique Singing Corpus with Realistic Music Scores for All Singing Tasks

Open-Source Conversational AI with SpeechBrain 1.0

Everyday Speech in the Indian Subcontinent

Detecting Audio-Visual Deepfakes with Fine-Grained Inconsistencies

Both Ears Wide Open: Towards Language-Driven Spatial Audio Generation

Enhancing Indonesian Automatic Speech Recognition: Evaluating Multilingual Models with Diverse Speech Variabilities

最近の投稿

最近のコメント

アーカイブ

カテゴリー