「cs.SD」カテゴリーアーカイブ

Boosting Hybrid Autoregressive Transducer-based ASR with Internal Acoustic Model Training and Dual Blank Thresholding

投稿日: 2024年10月1日作成者: jarxiv

要約ハイブリッド自己回帰トランスデューサー (HAT) は、ブランク事後分布と … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Word-wise intonation model for cross-language TTS systems

投稿日: 2024年10月1日作成者: jarxiv

要約この論文では、ロシア語の単語ごとのイントネーションモデルを提案し、それを … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Soft Acoustic Curvature Sensor: Design and Development

投稿日: 2024年9月30日作成者: jarxiv

要約この論文では、新しい Soft Acoustic Curvature (S … 続きを読む →

カテゴリー: cs.RO, cs.SD, eess.AS | コメントを受け付けていません

2D or not 2D: How Does the Dimensionality of Gesture Representation Affect 3D Co-Speech Gesture Generation?

投稿日: 2024年9月30日作成者: jarxiv

要約共同スピーチのジェスチャーはコミュニケーションの基本です。最近の深層学習 … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Semi-Supervised Cognitive State Classification from Speech with Multi-View Pseudo-Labeling

投稿日: 2024年9月30日作成者: jarxiv

要約ラベル付きデータの欠如は、音声分類タスク、特に認知状態分類などの広範な主観 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Rethinking Emotion Bias in Music via Frechet Audio Distance

投稿日: 2024年9月30日作成者: jarxiv

要約音楽の感情の主観的な性質により、特に単一のオーディオエンコーダー、感情分 … 続きを読む →

カテゴリー: cs.CL, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Beyond Single-Audio: Advancing Multi-Audio Processing in Audio Large Language Models

投稿日: 2024年9月30日作成者: jarxiv

要約最近、単一の統合モデルを使用してさまざまなオーディオタスクに同時に取り組 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Speech Boosting: Low-Latency Live Speech Enhancement for TWS Earbuds

投稿日: 2024年9月30日作成者: jarxiv

要約このペーパーでは、デバイス上での真のワイヤレスステレオ (TWS) イヤ … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS, eess.SP | コメントを受け付けていません

Are Transformers in Pre-trained LM A Good ASR Encoder? An Empirical Study

投稿日: 2024年9月27日作成者: jarxiv

要約この研究では、自動音声認識 (ASR) のエンコーダーとして再利用された場 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

GTSinger: A Global Multi-Technique Singing Corpus with Realistic Music Scores for All Singing Tasks

投稿日: 2024年9月27日作成者: jarxiv

要約高品質でマルチタスクの歌唱データセットの不足は、既存の歌唱データセットの品 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

「cs.SD」カテゴリーアーカイブ

Boosting Hybrid Autoregressive Transducer-based ASR with Internal Acoustic Model Training and Dual Blank Thresholding

Word-wise intonation model for cross-language TTS systems

Soft Acoustic Curvature Sensor: Design and Development

2D or not 2D: How Does the Dimensionality of Gesture Representation Affect 3D Co-Speech Gesture Generation?

Semi-Supervised Cognitive State Classification from Speech with Multi-View Pseudo-Labeling

Rethinking Emotion Bias in Music via Frechet Audio Distance

Beyond Single-Audio: Advancing Multi-Audio Processing in Audio Large Language Models

Speech Boosting: Low-Latency Live Speech Enhancement for TWS Earbuds

Are Transformers in Pre-trained LM A Good ASR Encoder? An Empirical Study

GTSinger: A Global Multi-Technique Singing Corpus with Realistic Music Scores for All Singing Tasks

最近の投稿

最近のコメント

アーカイブ

カテゴリー