cs.SD」カテゴリーアーカイブ

uDistil-Whisper: Label-Free Data Filtering for Knowledge Distillation in Low-Data Regimes

要約 擬似ラベルを使用して Whisper の知識を小さなモデルに抽出する最近の … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | uDistil-Whisper: Label-Free Data Filtering for Knowledge Distillation in Low-Data Regimes はコメントを受け付けていません

Accelerating Codec-based Speech Synthesis with Multi-Token Prediction and Speculative Decoding

要約 この文書の目標は、音声品質の犠牲を最小限に抑えながら、コーデックベースの音 … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Accelerating Codec-based Speech Synthesis with Multi-Token Prediction and Speculative Decoding はコメントを受け付けていません

GTSinger: A Global Multi-Technique Singing Corpus with Realistic Music Scores for All Singing Tasks

要約 高品質でマルチタスクの歌唱データセットの不足は、既存の歌唱データセットの品 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | GTSinger: A Global Multi-Technique Singing Corpus with Realistic Music Scores for All Singing Tasks はコメントを受け付けていません

Everyday Speech in the Indian Subcontinent

要約 インドには 1,369 の言語があり、そのうち 22 が公用語です。 これ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS, I.2.7 | Everyday Speech in the Indian Subcontinent はコメントを受け付けていません

Detecting Audio-Visual Deepfakes with Fine-Grained Inconsistencies

要約 オーディオビジュアルディープフェイク検出に関する既存の方法は、オーディオデ … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | Detecting Audio-Visual Deepfakes with Fine-Grained Inconsistencies はコメントを受け付けていません

Both Ears Wide Open: Towards Language-Driven Spatial Audio Generation

要約 最近、普及モデルはモノチャンネルオーディオ生成において大きな成功を収めてい … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS | Both Ears Wide Open: Towards Language-Driven Spatial Audio Generation はコメントを受け付けていません

Enhancing Indonesian Automatic Speech Recognition: Evaluating Multilingual Models with Diverse Speech Variabilities

要約 理想的な音声認識モデルは、話し方 (朗読および自発的)、音声コンテキスト … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Enhancing Indonesian Automatic Speech Recognition: Evaluating Multilingual Models with Diverse Speech Variabilities はコメントを受け付けていません

Enhancing Indonesian Automatic Speech Recognition: Evaluating Multilingual Models with Diverse Speech Variabilities

要約 理想的な音声認識モデルは、話し方 (朗読および自発的)、音声コンテキスト … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Enhancing Indonesian Automatic Speech Recognition: Evaluating Multilingual Models with Diverse Speech Variabilities はコメントを受け付けていません

UniGlyph: A Seven-Segment Script for Universal Language Representation

要約 UniGlyph は、7 セグメント文字から派生したスクリプトを使用してユ … 続きを読む

カテゴリー: 68T01, 68T50, cs.CL, cs.HC, cs.SC, cs.SD, eess.AS, H.5.2 | UniGlyph: A Seven-Segment Script for Universal Language Representation はコメントを受け付けていません

Controlling Whisper: Universal Acoustic Adversarial Attacks to Control Speech Foundation Models

要約 柔軟な音声認識ベースのシステムまたは音声プロンプトの大規模言語モデル (L … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Controlling Whisper: Universal Acoustic Adversarial Attacks to Control Speech Foundation Models はコメントを受け付けていません