-
最近の投稿
- Efficiently Generating Expressive Quadruped Behaviors via Language-Guided Preference Learning
- Whole-Body Dynamic Throwing with Legged Manipulators
- RG-Attn: Radian Glue Attention for Multi-modality Multi-agent Cooperative Perception
- Scalable Real2Sim: Physics-Aware Asset Generation Via Robotic Pick-and-Place Setups
- Temporal and Semantic Evaluation Metrics for Foundation Models in Post-Hoc Analysis of Robotic Sub-tasks
-
最近のコメント
表示できるコメントはありません。 cs.AI (35979) cs.CL (27216) cs.CR (2743) cs.CV (41827) cs.LG (40948) cs.RO (21216) cs.SY (3206) eess.IV (4914) eess.SY (3200) stat.ML (5368)
「cs.SD」カテゴリーアーカイブ
Joint Fine-tuning and Conversion of Pretrained Speech and Language Models towards Linear Complexity
要約 LinformerやMambaなどのアーキテクチャは、最近、変圧器の競合的 … 続きを読む
AudioX: Diffusion Transformer for Anything-to-Audio Generation
要約 オーディオと音楽の生成は、多くのアプリケーションで重要なタスクとして浮上し … 続きを読む
Quality Over Quantity? LLM-Based Curation for a Data-Efficient Audio-Video Foundation Model
要約 マルチモーダルの基礎モデルをトレーニングするためのオーディオとビジュアルデ … 続きを読む
ESPnet-SDS: Unified Toolkit and Demo for Spoken Dialogue Systems
要約 Audio Foundation Models(FMS)の進歩は、エンドツ … 続きを読む
Mellow: a small audio language model for reasoning
要約 マルチモーダルオーディオ言語モデル(ALMS)は、オーディオとテキストの両 … 続きを読む
YuE: Scaling Open Foundation Models for Long-Form Music Generation
要約 LLAMA2アーキテクチャに基づいたオープンファンデーションモデルのファミ … 続きを読む
Video-to-Audio Generation with Hidden Alignment
要約 ビデオ入力に従って意味的および一時的に整列したオーディオコンテンツを生成す … 続きを読む
Score-informed Music Source Separation: Improving Synthetic-to-real Generalization in Classical Music
要約 音楽ソースの分離は、楽器の混合物を構成トラックに分離するタスクです。 音楽 … 続きを読む
Self-Supervised Models for Phoneme Recognition: Applications in Children’s Speech for Reading Learning
要約 子どもの音声認識は、データの不足(特に英語以外の言語)とこのタスクの具体的 … 続きを読む