-
最近の投稿
- Unified Multimodal Discrete Diffusion
- A Study of Perceived Safety for Soft Robotics in Caregiving Tasks
- Pellet-based 3D Printing of Soft Thermoplastic Elastomeric Membranes for Soft Robotic Applications
- SimBEV: A Synthetic Multi-Task Multi-Sensor Driving Data Generation Tool and Dataset
- Multi-Agent Inverse Reinforcement Learning in Real World Unstructured Pedestrian Crowds
-
最近のコメント
表示できるコメントはありません。 cs.AI (35797) cs.CL (27063) cs.CR (2730) cs.CV (41653) cs.LG (40744) cs.RO (21106) cs.SY (3195) eess.IV (4896) eess.SY (3189) stat.ML (5346)
「eess.AS」カテゴリーアーカイブ
Solla: Towards a Speech-Oriented LLM That Hears Acoustic Context
要約 大規模な言語モデル(LLM)は最近、テキストだけでなく、音声やオーディオな … 続きを読む
Reinforcement Learning Outperforms Supervised Fine-Tuning: A Case Study on Audio Question Answering
要約 最近、強化学習(RL)は、大規模な言語モデル(LLM)の推論能力を大幅に強 … 続きを読む
MoonCast: High-Quality Zero-Shot Podcast Generation
要約 テキスト間合成の最近の進歩は、個々のスピーカーの高品質の短い発言を生み出す … 続きを読む
AdaST: Dynamically Adapting Encoder States in the Decoder for End-to-End Speech-to-Text Translation
要約 エンドツーエンドの音声翻訳では、エンコーダーによって学んだ音響表現は、通常 … 続きを読む
TCSinger: Zero-Shot Singing Voice Synthesis with Style Transfer and Multi-Level Style Control
要約 スタイル転送とスタイルコントロールを備えたゼロショット歌声合成(SVS)は … 続きを読む
MoonCast: High-Quality Zero-Shot Podcast Generation
要約 テキスト間合成の最近の進歩は、個々のスピーカーの高品質の短い発言を生み出す … 続きを読む
Personalized Speech Emotion Recognition in Human-Robot Interaction using Vision Transformers
要約 感情は口頭でのコミュニケーションにおいて不可欠な要素であるため、人間とロボ … 続きを読む
LLM-based speaker diarization correction: A generalizable approach
要約 スピーカーダイアリゼーションは、自動化された音声認識(ASR)ツールを使用 … 続きを読む
Video-Guided Foley Sound Generation with Multimodal Controls
要約 ビデオのサウンドエフェクトを生成するには、多くの場合、実生活のソースとサウ … 続きを読む