-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「eess.AS」カテゴリーアーカイブ
Can CLIP Help Sound Source Localization?
要約 大規模な事前トレーニング済み画像テキスト モデルは、その堅牢な表現機能と効 … 続きを読む
Proceedings of the 5th International Workshop on Reading Music Systems
要約 International Workshop on Reading Mus … 続きを読む
DiffAR: Denoising Diffusion Autoregressive Model for Raw Speech Waveform Generation
要約 最近、拡散モデルが高品質の音声生成に関連していることが示されています。 ほ … 続きを読む
DistilWhisper: Efficient Distillation of Multi-task Speech Models via Language-Specific Experts
要約 Whisper は、99 言語をカバーするマルチタスクおよび多言語音声モデ … 続きを読む
Textually Pretrained Speech Language Models
要約 音声言語モデル (SpeechLM) は、テキストによる監視なしで音響デー … 続きを読む
Server-side Rescoring of Spoken Entity-centric Knowledge Queries for Virtual Assistants
要約 自動音声認識 (ASR) を利用したオンデバイスの仮想アシスタント (VA … 続きを読む
Expressive TTS Driven by Natural Language Prompts Using Few Human Annotations
要約 Expressive Text-to-Speech (TTS) は、人間の … 続きを読む
Deep Neural Networks for Automatic Speaker Recognition Do Not Learn Supra-Segmental Temporal Features
要約 ディープ ニューラル ネットワークは、自動話者認識および関連タスクにおいて … 続きを読む
Active Noise Control Portable Device Design
要約 私たちの世界は、私たちが楽しまずにはいられない独自の自然音で満たされている … 続きを読む
Controllable Music Production with Diffusion Models and Guidance Gradients
要約 拡散モデルからの条件付き生成を使用して、サンプリング時間ガイダンスを使用し … 続きを読む