-
最近の投稿
- Learning Multimodal Latent Dynamics for Human-Robot Interaction
- Poutine: Vision-Language-Trajectory Pre-Training and Reinforcement Learning Post-Training Enable Robust End-to-End Autonomous Driving
- Gondola: Grounded Vision Language Planning for Generalizable Robotic Manipulation
- Demonstration Sidetracks: Categorizing Systematic Non-Optimality in Human Demonstrations
- Sensor Model Identification via Simultaneous Model Selection and State Variable Determination
-
最近のコメント
表示できるコメントはありません。 cs.AI (39679) cs.CL (30032) cs.CV (45003) cs.HC (3029) cs.LG (44613) cs.RO (23728) cs.SY (3617) eess.IV (5159) eess.SY (3609) stat.ML (5797)
「eess.AS」カテゴリーアーカイブ
Can Large Audio-Language Models Truly Hear? Tackling Hallucinations with Multi-Task Assessment and Stepwise Audio Reasoning
要約 大規模音声言語モデル (LALM) の最近の進歩により、音声および音声情報 … 続きを読む
An investigation of phrase break prediction in an End-to-End TTS system
要約 目的: この研究では、エンドツーエンドの Text-to-Speech ( … 続きを読む
Speech Retrieval-Augmented Generation without Automatic Speech Recognition
要約 音声データに対する質問応答の一般的なアプローチの 1 つは、最初に自動音声 … 続きを読む
Mamba-SEUNet: Mamba UNet for Monaural Speech Enhancement
要約 最近の音声強調 (SE) 研究では、トランスフォーマーとその変種が主要な方 … 続きを読む
Personalized Lip Reading: Adapting to Your Unique Lip Movements with Vision and Language
要約 読唇術は、唇の動きを分析することで話し言葉を予測することを目的としています … 続きを読む
Stable-V2A: Synthesis of Synchronized Sound Effects with Temporal and Semantic Controls
要約 サウンド デザイナーやフォーリー アーティストは通常、ビデオ内の関心の … 続きを読む
Improving Generalization for AI-Synthesized Voice Detection
要約 AI 合成音声テクノロジーは、有益な用途のためにリアルな人間の声を作成でき … 続きを読む
A Modular-based Strategy for Mitigating Gradient Conflicts in Simultaneous Speech Translation
要約 同時音声翻訳 (SimulST) では、ストリーミング音声入力を継続的に処 … 続きを読む
Enhancing Multimodal Emotion Recognition through Multi-Granularity Cross-Modal Alignment
要約 音声とテキストを活用するマルチモーダル感情認識 (MER) は、人間とコン … 続きを読む