-
最近の投稿
- Open-Vocabulary Action Localization with Iterative Visual Prompting
- Patterned Structure Muscle : Arbitrary Shaped Wire-driven Artificial Muscle Utilizing Anisotropic Flexible Structure for Musculoskeletal Robots
- The Power of Input: Benchmarking Zero-Shot Sim-To-Real Transfer of Reinforcement Learning Control Policies for Quadrotor Control
- PokeFlex: A Real-World Dataset of Deformable Objects for Robotics
- Toward a Better Understanding of Robot Energy Consumption in Agroecological Applications
-
最近のコメント
表示できるコメントはありません。 cs.AI (27918) cs.CL (21095) cs.CR (2183) cs.CV (34618) cs.LG (32650) cs.RO (16022) cs.SY (2484) eess.IV (4238) eess.SY (2478) stat.ML (4372)
「cs.SD」カテゴリーアーカイブ
StyleTTS 2: Towards Human-Level Text-to-Speech through Style Diffusion and Adversarial Training with Large Speech Language Models
要約 この論文では、スタイルの拡散と大規模音声言語モデル (SLM) による敵対 … 続きを読む
StyleTTS: A Style-Based Generative Model for Natural and Diverse Text-to-Speech Synthesis
要約 Text-to-Speech (TTS) は、並列 TTS システムの急速 … 続きを読む
Encoding Speaker-Specific Latent Speech Feature for Speech Synthesis
要約 この研究では、多数の話者をモデル化するための新しい方法を提案します。これに … 続きを読む
The Song Describer Dataset: a Corpus of Audio Captions for Music-and-Language Evaluation
要約 音楽と言語のモデルを評価するために設計された、高品質のオーディオとキャプシ … 続きを読む
The Song Describer Dataset: a Corpus of Audio Captions for Music-and-Language Evaluation
要約 音楽と言語のモデルを評価するために設計された、高品質のオーディオとキャプシ … 続きを読む
R-Spin: Efficient Speaker and Noise-invariant Representation Learning with Acoustic Pieces
要約 この論文では、話者不変クラスタリング (Spin) を使用して離散音響単位 … 続きを読む
Can MusicGen Create Training Data for MIR Tasks?
要約 私たちは、AI ベースの音楽生成システムを使用して音楽情報検索 (MIR) … 続きを読む
Open-vocabulary keyword spotting in any language through multilingual contrastive speech-phoneme pretraining
要約 この論文では、多様な言語族の 115 以上の言語を網羅する、きめ細かい音素 … 続きを読む
Retrieve and Copy: Scaling ASR Personalization to Large Catalogs
要約 自動音声認識 (ASR) モデルのパーソナライゼーションは、多くの実用的な … 続きを読む