-
最近の投稿
- ManipTrans: Efficient Dexterous Bimanual Manipulation Transfer via Residual Learning
- Multimodal Object Detection using Depth and Image Data for Manufacturing Parts
- Data-Agnostic Robotic Long-Horizon Manipulation with Vision-Language-Guided Closed-Loop Feedback
- Pretrained Bayesian Non-parametric Knowledge Prior in Robotic Long-Horizon Reinforcement Learning
- Bresa: Bio-inspired Reflexive Safe Reinforcement Learning for Contact-Rich Robotic Tasks
-
最近のコメント
表示できるコメントはありません。 cs.AI (35861) cs.CL (27115) cs.CR (2735) cs.CV (41715) cs.LG (40810) cs.RO (21147) cs.SY (3199) eess.IV (4903) eess.SY (3193) stat.ML (5350)
「cs.SD」カテゴリーアーカイブ
Video-Guided Foley Sound Generation with Multimodal Controls
要約 ビデオのサウンドエフェクトを生成するには、多くの場合、実生活のソースとサウ … 続きを読む
Are Deep Speech Denoising Models Robust to Adversarial Noise?
要約 ディープノイズ抑制(DNS)モデルは、さまざまなハイステークス音声アプリケ … 続きを読む
Exploring the Potential of Large Multimodal Models as Effective Alternatives for Pronunciation Assessment
要約 大規模なマルチモーダルモデル(LMM)は、幅広いドメインで並外れたパフォー … 続きを読む
Reproducible Machine Learning-based Voice Pathology Detection: Introducing the Pitch Difference Feature
要約 目的:公開されているSaarbr \ ‘ucken Voice … 続きを読む
Designing Neural Synthesizers for Low Latency Interaction
要約 ニューラルオーディオ合成(NAS)モデルは、高品質で表現力のあるオーディオ … 続きを読む
Whisper Speaker Identification: Leveraging Pre-Trained Multilingual Transformers for Robust Speaker Embeddings
要約 多言語設定でのスピーカーの識別は、特に従来のモデルが主に英語のデータでトレ … 続きを読む
Joint Fine-tuning and Conversion of Pretrained Speech and Language Models towards Linear Complexity
要約 LinformerやMambaなどのアーキテクチャは、最近、変圧器の競合的 … 続きを読む
AudioX: Diffusion Transformer for Anything-to-Audio Generation
要約 オーディオと音楽の生成は、多くのアプリケーションで重要なタスクとして浮上し … 続きを読む
Quality Over Quantity? LLM-Based Curation for a Data-Efficient Audio-Video Foundation Model
要約 マルチモーダルの基礎モデルをトレーニングするためのオーディオとビジュアルデ … 続きを読む
ESPnet-SDS: Unified Toolkit and Demo for Spoken Dialogue Systems
要約 Audio Foundation Models(FMS)の進歩は、エンドツ … 続きを読む