-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.SD」カテゴリーアーカイブ
Reinforcement Learning Outperforms Supervised Fine-Tuning: A Case Study on Audio Question Answering
要約 最近、強化学習(RL)は、大規模な言語モデル(LLM)の推論能力を大幅に強 … 続きを読む
MoonCast: High-Quality Zero-Shot Podcast Generation
要約 テキスト間合成の最近の進歩は、個々のスピーカーの高品質の短い発言を生み出す … 続きを読む
AdaST: Dynamically Adapting Encoder States in the Decoder for End-to-End Speech-to-Text Translation
要約 エンドツーエンドの音声翻訳では、エンコーダーによって学んだ音響表現は、通常 … 続きを読む
TCSinger: Zero-Shot Singing Voice Synthesis with Style Transfer and Multi-Level Style Control
要約 スタイル転送とスタイルコントロールを備えたゼロショット歌声合成(SVS)は … 続きを読む
MoonCast: High-Quality Zero-Shot Podcast Generation
要約 テキスト間合成の最近の進歩は、個々のスピーカーの高品質の短い発言を生み出す … 続きを読む
Personalized Speech Emotion Recognition in Human-Robot Interaction using Vision Transformers
要約 感情は口頭でのコミュニケーションにおいて不可欠な要素であるため、人間とロボ … 続きを読む
Video-Guided Foley Sound Generation with Multimodal Controls
要約 ビデオのサウンドエフェクトを生成するには、多くの場合、実生活のソースとサウ … 続きを読む
Are Deep Speech Denoising Models Robust to Adversarial Noise?
要約 ディープノイズ抑制(DNS)モデルは、さまざまなハイステークス音声アプリケ … 続きを読む
Exploring the Potential of Large Multimodal Models as Effective Alternatives for Pronunciation Assessment
要約 大規模なマルチモーダルモデル(LMM)は、幅広いドメインで並外れたパフォー … 続きを読む
Reproducible Machine Learning-based Voice Pathology Detection: Introducing the Pitch Difference Feature
要約 目的:公開されているSaarbr \ ‘ucken Voice … 続きを読む