-
最近の投稿
- Enhancing Heterogeneous Multi-Agent Cooperation in Decentralized MARL via GNN-driven Intrinsic Rewards
- OrbitGrasp: $SE(3)$-Equivariant Grasp Learning
- M3Bench: Benchmarking Whole-body Motion Generation for Mobile Manipulation in 3D Scenes
- Self-Supervised Learning For Robust Robotic Grasping In Dynamic Environment
- Routing and Scheduling Optimization for Urban Air Mobility Fleet Management using Quantum Annealing
-
最近のコメント
表示できるコメントはありません。 cs.AI (28126) cs.CL (21249) cs.CR (2197) cs.CV (34799) cs.LG (32858) cs.RO (16174) cs.SY (2496) eess.IV (4244) eess.SY (2490) stat.ML (4401)
「eess.AS」カテゴリーアーカイブ
Expressive TTS Driven by Natural Language Prompts Using Few Human Annotations
要約 Expressive Text-to-Speech (TTS) は、人間の … 続きを読む
Deep Neural Networks for Automatic Speaker Recognition Do Not Learn Supra-Segmental Temporal Features
要約 ディープ ニューラル ネットワークは、自動話者認識および関連タスクにおいて … 続きを読む
Active Noise Control Portable Device Design
要約 私たちの世界は、私たちが楽しまずにはいられない独自の自然音で満たされている … 続きを読む
Controllable Music Production with Diffusion Models and Guidance Gradients
要約 拡散モデルからの条件付き生成を使用して、サンプリング時間ガイダンスを使用し … 続きを読む
Detecting Syllable-Level Pronunciation Stress with A Self-Attention Model
要約 効果的な口頭コミュニケーションの前提条件の 1 つは、特に非母語話者にとっ … 続きを読む
Distil-Whisper: Robust Knowledge Distillation via Large-Scale Pseudo Labelling
要約 事前トレーニングされた音声認識モデルのサイズが大きくなるにつれて、これらの … 続きを読む
SegAugment: Maximizing the Utility of Speech Translation Data with Segmentation-based Augmentations
要約 エンドツーエンドの音声翻訳は、利用可能なデータ リソースの不足によって妨げ … 続きを読む
End-to-End Single-Channel Speaker-Turn Aware Conversational Speech Translation
要約 従来の音声からテキストへの翻訳 (ST) システムは、単一話者の発話に基づ … 続きを読む
Disentangling Voice and Content with Self-Supervision for Speaker Recognition
要約 話者認識の場合、話者の特徴と内容が混在しているため、音声から正確な話者 … 続きを読む
Deep Neural Networks for Automatic Speaker Recognition Do Not Learn Supra-Segmental Temporal Features
要約 ディープ ニューラル ネットワークは、自動話者認識および関連タスクにおいて … 続きを読む