-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.SD」カテゴリーアーカイブ
Diff-HierVC: Diffusion-based Hierarchical Voice Conversion with Robust Pitch Generation and Masked Prior for Zero-shot Speaker Adaptation
要約 音声変換 (VC) システムは音声スタイルを転送する顕著な能力を示していま … 続きを読む
Rethinking and Improving Multi-task Learning for End-to-end Speech Translation
要約 マルチタスク学習の適用により、エンドツーエンドの音声翻訳 (ST) が大幅 … 続きを読む
Can CLIP Help Sound Source Localization?
要約 大規模な事前トレーニング済み画像テキスト モデルは、その堅牢な表現機能と効 … 続きを読む
Proceedings of the 5th International Workshop on Reading Music Systems
要約 International Workshop on Reading Mus … 続きを読む
DiffAR: Denoising Diffusion Autoregressive Model for Raw Speech Waveform Generation
要約 最近、拡散モデルが高品質の音声生成に関連していることが示されています。 ほ … 続きを読む
DistilWhisper: Efficient Distillation of Multi-task Speech Models via Language-Specific Experts
要約 Whisper は、99 言語をカバーするマルチタスクおよび多言語音声モデ … 続きを読む
Textually Pretrained Speech Language Models
要約 音声言語モデル (SpeechLM) は、テキストによる監視なしで音響デー … 続きを読む
Server-side Rescoring of Spoken Entity-centric Knowledge Queries for Virtual Assistants
要約 自動音声認識 (ASR) を利用したオンデバイスの仮想アシスタント (VA … 続きを読む
Expressive TTS Driven by Natural Language Prompts Using Few Human Annotations
要約 Expressive Text-to-Speech (TTS) は、人間の … 続きを読む
Deep Neural Networks for Automatic Speaker Recognition Do Not Learn Supra-Segmental Temporal Features
要約 ディープ ニューラル ネットワークは、自動話者認識および関連タスクにおいて … 続きを読む