「cs.SD」カテゴリーアーカイブ

uDistil-Whisper: Label-Free Data Filtering for Knowledge Distillation in Low-Data Regimes

投稿日: 2024年10月18日作成者: jarxiv

要約擬似ラベルを使用して Whisper の知識を小さなモデルに抽出する最近の … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Accelerating Codec-based Speech Synthesis with Multi-Token Prediction and Speculative Decoding

投稿日: 2024年10月18日作成者: jarxiv

要約この文書の目標は、音声品質の犠牲を最小限に抑えながら、コーデックベースの音 … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

GTSinger: A Global Multi-Technique Singing Corpus with Realistic Music Scores for All Singing Tasks

投稿日: 2024年10月17日作成者: jarxiv

要約高品質でマルチタスクの歌唱データセットの不足は、既存の歌唱データセットの品 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Everyday Speech in the Indian Subcontinent

投稿日: 2024年10月15日作成者: jarxiv

要約インドには 1,369 の言語があり、そのうち 22 が公用語です。これ … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS, I.2.7 | コメントを受け付けていません

Detecting Audio-Visual Deepfakes with Fine-Grained Inconsistencies

投稿日: 2024年10月15日作成者: jarxiv

要約オーディオビジュアルディープフェイク検出に関する既存の方法は、オーディオデ … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Both Ears Wide Open: Towards Language-Driven Spatial Audio Generation

投稿日: 2024年10月15日作成者: jarxiv

要約最近、普及モデルはモノチャンネルオーディオ生成において大きな成功を収めてい … 続きを読む →

カテゴリー: cs.CV, cs.SD, eess.AS | コメントを受け付けていません

Enhancing Indonesian Automatic Speech Recognition: Evaluating Multilingual Models with Diverse Speech Variabilities

投稿日: 2024年10月15日作成者: jarxiv

要約理想的な音声認識モデルは、話し方 (朗読および自発的)、音声コンテキスト … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Enhancing Indonesian Automatic Speech Recognition: Evaluating Multilingual Models with Diverse Speech Variabilities

投稿日: 2024年10月14日作成者: jarxiv

要約理想的な音声認識モデルは、話し方 (朗読および自発的)、音声コンテキスト … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

UniGlyph: A Seven-Segment Script for Universal Language Representation

投稿日: 2024年10月14日作成者: jarxiv

要約 UniGlyph は、7 セグメント文字から派生したスクリプトを使用してユ … 続きを読む →

カテゴリー: 68T01, 68T50, cs.CL, cs.HC, cs.SC, cs.SD, eess.AS, H.5.2 | コメントを受け付けていません

Controlling Whisper: Universal Acoustic Adversarial Attacks to Control Speech Foundation Models

投稿日: 2024年10月14日作成者: jarxiv

要約柔軟な音声認識ベースのシステムまたは音声プロンプトの大規模言語モデル (L … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

「cs.SD」カテゴリーアーカイブ

uDistil-Whisper: Label-Free Data Filtering for Knowledge Distillation in Low-Data Regimes

Accelerating Codec-based Speech Synthesis with Multi-Token Prediction and Speculative Decoding

GTSinger: A Global Multi-Technique Singing Corpus with Realistic Music Scores for All Singing Tasks

Everyday Speech in the Indian Subcontinent

Detecting Audio-Visual Deepfakes with Fine-Grained Inconsistencies

Both Ears Wide Open: Towards Language-Driven Spatial Audio Generation

Enhancing Indonesian Automatic Speech Recognition: Evaluating Multilingual Models with Diverse Speech Variabilities

Enhancing Indonesian Automatic Speech Recognition: Evaluating Multilingual Models with Diverse Speech Variabilities

UniGlyph: A Seven-Segment Script for Universal Language Representation

Controlling Whisper: Universal Acoustic Adversarial Attacks to Control Speech Foundation Models

最近の投稿

最近のコメント

アーカイブ

カテゴリー