-
最近の投稿
- Open-Vocabulary Action Localization with Iterative Visual Prompting
- Patterned Structure Muscle : Arbitrary Shaped Wire-driven Artificial Muscle Utilizing Anisotropic Flexible Structure for Musculoskeletal Robots
- The Power of Input: Benchmarking Zero-Shot Sim-To-Real Transfer of Reinforcement Learning Control Policies for Quadrotor Control
- PokeFlex: A Real-World Dataset of Deformable Objects for Robotics
- Toward a Better Understanding of Robot Energy Consumption in Agroecological Applications
-
最近のコメント
表示できるコメントはありません。 cs.AI (27918) cs.CL (21095) cs.CR (2183) cs.CV (34618) cs.LG (32650) cs.RO (16022) cs.SY (2484) eess.IV (4238) eess.SY (2478) stat.ML (4372)
「cs.SD」カテゴリーアーカイブ
Seamless: Multilingual Expressive and Streaming Speech Translation
要約 現在の大規模な自動音声翻訳システムには、人間と人間の対話と比較して、機械を … 続きを読む
Investigating the Design Space of Diffusion Models for Speech Enhancement
要約 拡散モデルは、画像生成文献において優れたパフォーマンスを示している新しいク … 続きを読む
Multimodal Data and Resource Efficient Device-Directed Speech Detection with Large Foundation Models
要約 仮想アシスタントとの対話は通常、トリガー フレーズで始まり、その後にコマン … 続きを読む
Towards small and accurate convolutional neural networks for acoustic biodiversity monitoring
要約 動物の鳴き声の自動分類は、生物多様性の大規模モニタリングの前提条件です。 … 続きを読む
Optimizing Two-Pass Cross-Lingual Transfer Learning: Phoneme Recognition and Phoneme to Grapheme Translation
要約 この研究では、音素認識と音素から書記素への翻訳モデルを強化することにより、 … 続きを読む
Data is Overrated: Perceptual Metrics Can Lead Learning in the Absence of Training Data
要約 知覚メトリクスは伝統的に、画像や音声などの自然信号の品質を評価するために使 … 続きを読む
JAMMIN-GPT: Text-based Improvisation using LLMs in Ableton Live
要約 Ableton Live のユーザーが音楽の説明を付けて名前を付けて MI … 続きを読む
Iterative autoregression: a novel trick to improve your low-latency speech enhancement model
要約 ストリーミング モデルは、リアルタイム音声強調ツールの重要なコンポーネント … 続きを読む
Building Ears for Robots: Machine Hearing in the Age of Autonomy
要約 この研究では、ロボット聴覚システムの重要性を調査し、多様で不確実な環境で動 … 続きを読む
Building Ears for Robots: Machine Hearing in the Age of Autonomy
要約 不確実な環境におけるフィールドロボットの増加により、ロボットの聴覚システム … 続きを読む