-
最近の投稿
- On the Feedback Law in Stochastic Optimal Nonlinear Control
- Open-Vocabulary Action Localization with Iterative Visual Prompting
- Patterned Structure Muscle : Arbitrary Shaped Wire-driven Artificial Muscle Utilizing Anisotropic Flexible Structure for Musculoskeletal Robots
- The Power of Input: Benchmarking Zero-Shot Sim-To-Real Transfer of Reinforcement Learning Control Policies for Quadrotor Control
- PokeFlex: A Real-World Dataset of Deformable Objects for Robotics
-
最近のコメント
表示できるコメントはありません。 cs.AI (27918) cs.CL (21095) cs.CR (2183) cs.CV (34618) cs.LG (32650) cs.RO (16023) cs.SY (2485) eess.IV (4238) eess.SY (2479) stat.ML (4372)
「cs.SD」カテゴリーアーカイブ
Speak While You Think: Streaming Speech Synthesis During Text Generation
要約 大規模言語モデル (LLM) は優れた機能を示しますが、これらのモデルとの … 続きを読む
Leveraging Data Collection and Unsupervised Learning for Code-switched Tunisian Arabic Automatic Speech Recognition
要約 方言に対する効果的な自動音声認識 (ASR) ソリューションを作成するには … 続きを読む
Incremental Blockwise Beam Search for Simultaneous Speech Translation with Controllable Quality-Latency Tradeoff
要約 ブロック単位のセルフアテンション エンコーダ モデルは、同時音声翻訳に対す … 続きを読む
Long-Form End-to-End Speech Translation via Latent Alignment Segmentation
要約 現在の同時音声翻訳モデルは、最大数秒の音声しか処理できません。 現代のデー … 続きを読む
Automatic Bat Call Classification using Transformer Networks
要約 コウモリのエコーロケーション鳴き声からコウモリの種を自動的に識別することは … 続きを読む
A Large-scale Dataset for Audio-Language Representation Learning
要約 AI コミュニティは、大規模なマルチモーダル データセットを活用した強力な … 続きを読む
MelodyGLM: Multi-task Pre-training for Symbolic Melody Generation
要約 事前トレーニングされた言語モデルは、さまざまな音楽の理解と生成のタスクにお … 続きを読む
Motif-Centric Representation Learning for Symbolic Music
要約 音楽モチーフは、作曲の概念的な構成要素として、音楽構造の分析と自動作曲にと … 続きを読む
Accelerating Diffusion-Based Text-to-Audio Generation with Consistency Distillation
要約 拡散モデルは、大部分の Text-to-Audio (TTA) 生成方法を … 続きを読む
Improving Speaker Diarization using Semantic Information: Joint Pairwise Constraints Propagation
要約 話者ダイアライゼーションは、音声処理研究コミュニティ内でかなりの注目を集め … 続きを読む