-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「eess.AS」カテゴリーアーカイブ
UniSync: A Unified Framework for Audio-Visual Synchronization
要約 スピーチビデオの正確な視聴覚同期は、コンテンツの品質と視聴者の理解に不可欠 … 続きを読む
Evaluating ASR Confidence Scores for Automated Error Detection in User-Assisted Correction Interfaces
要約 自動音声認識(ASR)の進歩にもかかわらず、転写エラーは持続し、手動修正が … 続きを読む
Solla: Towards a Speech-Oriented LLM That Hears Acoustic Context
要約 大規模な言語モデル(LLM)は最近、テキストだけでなく、音声やオーディオな … 続きを読む
Reinforcement Learning Outperforms Supervised Fine-Tuning: A Case Study on Audio Question Answering
要約 最近、強化学習(RL)は、大規模な言語モデル(LLM)の推論能力を大幅に強 … 続きを読む
MoonCast: High-Quality Zero-Shot Podcast Generation
要約 テキスト間合成の最近の進歩は、個々のスピーカーの高品質の短い発言を生み出す … 続きを読む
AdaST: Dynamically Adapting Encoder States in the Decoder for End-to-End Speech-to-Text Translation
要約 エンドツーエンドの音声翻訳では、エンコーダーによって学んだ音響表現は、通常 … 続きを読む
TCSinger: Zero-Shot Singing Voice Synthesis with Style Transfer and Multi-Level Style Control
要約 スタイル転送とスタイルコントロールを備えたゼロショット歌声合成(SVS)は … 続きを読む
MoonCast: High-Quality Zero-Shot Podcast Generation
要約 テキスト間合成の最近の進歩は、個々のスピーカーの高品質の短い発言を生み出す … 続きを読む
Personalized Speech Emotion Recognition in Human-Robot Interaction using Vision Transformers
要約 感情は口頭でのコミュニケーションにおいて不可欠な要素であるため、人間とロボ … 続きを読む
LLM-based speaker diarization correction: A generalizable approach
要約 スピーカーダイアリゼーションは、自動化された音声認識(ASR)ツールを使用 … 続きを読む