-
最近の投稿
- ManipTrans: Efficient Dexterous Bimanual Manipulation Transfer via Residual Learning
- Multimodal Object Detection using Depth and Image Data for Manufacturing Parts
- Data-Agnostic Robotic Long-Horizon Manipulation with Vision-Language-Guided Closed-Loop Feedback
- Pretrained Bayesian Non-parametric Knowledge Prior in Robotic Long-Horizon Reinforcement Learning
- Bresa: Bio-inspired Reflexive Safe Reinforcement Learning for Contact-Rich Robotic Tasks
-
最近のコメント
表示できるコメントはありません。 cs.AI (35861) cs.CL (27115) cs.CR (2735) cs.CV (41715) cs.LG (40810) cs.RO (21147) cs.SY (3199) eess.IV (4903) eess.SY (3193) stat.ML (5350)
「eess.AS」カテゴリーアーカイブ
Are Deep Speech Denoising Models Robust to Adversarial Noise?
要約 ディープノイズ抑制(DNS)モデルは、さまざまなハイステークス音声アプリケ … 続きを読む
Exploring the Potential of Large Multimodal Models as Effective Alternatives for Pronunciation Assessment
要約 大規模なマルチモーダルモデル(LMM)は、幅広いドメインで並外れたパフォー … 続きを読む
Reproducible Machine Learning-based Voice Pathology Detection: Introducing the Pitch Difference Feature
要約 目的:公開されているSaarbr \ ‘ucken Voice … 続きを読む
Designing Neural Synthesizers for Low Latency Interaction
要約 ニューラルオーディオ合成(NAS)モデルは、高品質で表現力のあるオーディオ … 続きを読む
Whisper Speaker Identification: Leveraging Pre-Trained Multilingual Transformers for Robust Speaker Embeddings
要約 多言語設定でのスピーカーの識別は、特に従来のモデルが主に英語のデータでトレ … 続きを読む
Joint Fine-tuning and Conversion of Pretrained Speech and Language Models towards Linear Complexity
要約 LinformerやMambaなどのアーキテクチャは、最近、変圧器の競合的 … 続きを読む
AudioX: Diffusion Transformer for Anything-to-Audio Generation
要約 オーディオと音楽の生成は、多くのアプリケーションで重要なタスクとして浮上し … 続きを読む
Quality Over Quantity? LLM-Based Curation for a Data-Efficient Audio-Video Foundation Model
要約 マルチモーダルの基礎モデルをトレーニングするためのオーディオとビジュアルデ … 続きを読む
MAD Speech: Measures of Acoustic Diversity of Speech
要約 生成された音声言語モデルは、幅広い声、韻律、記録条件で音声を生み出し、自然 … 続きを読む
ESPnet-SDS: Unified Toolkit and Demo for Spoken Dialogue Systems
要約 Audio Foundation Models(FMS)の進歩は、エンドツ … 続きを読む