-
最近の投稿
- Unified Multimodal Discrete Diffusion
- A Study of Perceived Safety for Soft Robotics in Caregiving Tasks
- Pellet-based 3D Printing of Soft Thermoplastic Elastomeric Membranes for Soft Robotic Applications
- SimBEV: A Synthetic Multi-Task Multi-Sensor Driving Data Generation Tool and Dataset
- Multi-Agent Inverse Reinforcement Learning in Real World Unstructured Pedestrian Crowds
-
最近のコメント
表示できるコメントはありません。 cs.AI (35797) cs.CL (27063) cs.CR (2730) cs.CV (41653) cs.LG (40744) cs.RO (21106) cs.SY (3195) eess.IV (4896) eess.SY (3189) stat.ML (5346)
「cs.SD」カテゴリーアーカイブ
UniSync: A Unified Framework for Audio-Visual Synchronization
要約 スピーチビデオの正確な視聴覚同期は、コンテンツの品質と視聴者の理解に不可欠 … 続きを読む
Evaluating ASR Confidence Scores for Automated Error Detection in User-Assisted Correction Interfaces
要約 自動音声認識(ASR)の進歩にもかかわらず、転写エラーは持続し、手動修正が … 続きを読む
Solla: Towards a Speech-Oriented LLM That Hears Acoustic Context
要約 大規模な言語モデル(LLM)は最近、テキストだけでなく、音声やオーディオな … 続きを読む
Reinforcement Learning Outperforms Supervised Fine-Tuning: A Case Study on Audio Question Answering
要約 最近、強化学習(RL)は、大規模な言語モデル(LLM)の推論能力を大幅に強 … 続きを読む
MoonCast: High-Quality Zero-Shot Podcast Generation
要約 テキスト間合成の最近の進歩は、個々のスピーカーの高品質の短い発言を生み出す … 続きを読む
AdaST: Dynamically Adapting Encoder States in the Decoder for End-to-End Speech-to-Text Translation
要約 エンドツーエンドの音声翻訳では、エンコーダーによって学んだ音響表現は、通常 … 続きを読む
TCSinger: Zero-Shot Singing Voice Synthesis with Style Transfer and Multi-Level Style Control
要約 スタイル転送とスタイルコントロールを備えたゼロショット歌声合成(SVS)は … 続きを読む
MoonCast: High-Quality Zero-Shot Podcast Generation
要約 テキスト間合成の最近の進歩は、個々のスピーカーの高品質の短い発言を生み出す … 続きを読む
Personalized Speech Emotion Recognition in Human-Robot Interaction using Vision Transformers
要約 感情は口頭でのコミュニケーションにおいて不可欠な要素であるため、人間とロボ … 続きを読む