-
最近の投稿
- Open-Vocabulary Action Localization with Iterative Visual Prompting
- Patterned Structure Muscle : Arbitrary Shaped Wire-driven Artificial Muscle Utilizing Anisotropic Flexible Structure for Musculoskeletal Robots
- The Power of Input: Benchmarking Zero-Shot Sim-To-Real Transfer of Reinforcement Learning Control Policies for Quadrotor Control
- PokeFlex: A Real-World Dataset of Deformable Objects for Robotics
- Toward a Better Understanding of Robot Energy Consumption in Agroecological Applications
-
最近のコメント
表示できるコメントはありません。 cs.AI (27918) cs.CL (21095) cs.CR (2183) cs.CV (34618) cs.LG (32650) cs.RO (16022) cs.SY (2484) eess.IV (4238) eess.SY (2478) stat.ML (4372)
「cs.SD」カテゴリーアーカイブ
Active Noise Control Portable Device Design
要約 私たちの世界は、私たちが楽しまずにはいられない独自の自然音で満たされている … 続きを読む
Controllable Music Production with Diffusion Models and Guidance Gradients
要約 拡散モデルからの条件付き生成を使用して、サンプリング時間ガイダンスを使用し … 続きを読む
Detecting Syllable-Level Pronunciation Stress with A Self-Attention Model
要約 効果的な口頭コミュニケーションの前提条件の 1 つは、特に非母語話者にとっ … 続きを読む
Distil-Whisper: Robust Knowledge Distillation via Large-Scale Pseudo Labelling
要約 事前トレーニングされた音声認識モデルのサイズが大きくなるにつれて、これらの … 続きを読む
SegAugment: Maximizing the Utility of Speech Translation Data with Segmentation-based Augmentations
要約 エンドツーエンドの音声翻訳は、利用可能なデータ リソースの不足によって妨げ … 続きを読む
Deep Neural Networks for Automatic Speaker Recognition Do Not Learn Supra-Segmental Temporal Features
要約 ディープ ニューラル ネットワークは、自動話者認識および関連タスクにおいて … 続きを読む
LAVSS: Location-Guided Audio-Visual Spatial Audio Separation
要約 既存の機械学習研究は、モノラル視聴覚分離 (MAVS) において有望な結果 … 続きを読む
CoMoSpeech: One-Step Speech and Singing Voice Synthesis via Consistency Model
要約 ノイズ除去拡散確率モデル (DDPM) は、音声合成において有望なパフォー … 続きを読む
Exploring the Emotional Landscape of Music: An Analysis of Valence Trends and Genre Variations in Spotify Music Data
要約 この論文では、Spotify の音楽データを使用して、Spotify AP … 続きを読む
Intel Labs at Ego4D Challenge 2022: A Better Baseline for Audio-Visual Diarization
要約 このレポートでは、Ego4D Challenge 2022 のオーディオビ … 続きを読む