-
最近の投稿
- Learning Multimodal Latent Dynamics for Human-Robot Interaction
- Poutine: Vision-Language-Trajectory Pre-Training and Reinforcement Learning Post-Training Enable Robust End-to-End Autonomous Driving
- Gondola: Grounded Vision Language Planning for Generalizable Robotic Manipulation
- Demonstration Sidetracks: Categorizing Systematic Non-Optimality in Human Demonstrations
- Sensor Model Identification via Simultaneous Model Selection and State Variable Determination
-
最近のコメント
表示できるコメントはありません。 cs.AI (39679) cs.CL (30032) cs.CV (45003) cs.HC (3029) cs.LG (44613) cs.RO (23728) cs.SY (3617) eess.IV (5159) eess.SY (3609) stat.ML (5797)
「eess.AS」カテゴリーアーカイブ
Samba-ASR: State-Of-The-Art Speech Recognition Leveraging Structured State-Space Models
要約 私たちは、状態空間モデル (SSM) の基礎に基づいて構築された、新しい … 続きを読む
Noise-Robust Target-Speaker Voice Activity Detection Through Self-Supervised Pretraining
要約 ターゲット話者の音声アクティビティ検出 (TS-VAD) は、オーディオ … 続きを読む
Multimodal Machine Learning Can Predict Videoconference Fluidity and Enjoyment
要約 ビデオ会議は現在、仕事上でも非公式でも頻繁に行われるコミュニケーション手段 … 続きを読む
Samba-asr state-of-the-art speech recognition leveraging structured state-space models
要約 私たちは、状態空間モデル (SSM) の基盤上に構築された、エンコーダーと … 続きを読む
VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and Dataset
要約 この論文では、マルチモーダルな理解と生成のための視覚・音声・言語オムニ知覚 … 続きを読む
Piano Transcription by Hierarchical Language Modeling with Pretrained Roll-based Encoders
要約 生のオーディオから音符を取得することを目的とした自動音楽転写 (AMT) … 続きを読む
Single-Channel Distance-Based Source Separation for Mobile GPU in Outdoor and Indoor Environments
要約 この研究は、屋外環境における距離ベースの音源分離 (DSS) を探求する重 … 続きを読む
OmniFlatten: An End-to-end GPT Model for Seamless Voice Conversation
要約 全二重音声対話システムは、従来のターンベースの対話システムを大幅に凌駕して … 続きを読む
Disentangling Speakers in Multi-Talker Speech Recognition with Speaker-Aware CTC
要約 複数話者による音声認識(MTASR)は、重複音声の分離と書き起こしにおいて … 続きを読む
VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction
要約 近年のマルチモーダル大規模言語モデル(MLLM)は、通常、視覚とテキストモ … 続きを読む