-
最近の投稿
- Learning Multimodal Latent Dynamics for Human-Robot Interaction
- Poutine: Vision-Language-Trajectory Pre-Training and Reinforcement Learning Post-Training Enable Robust End-to-End Autonomous Driving
- Gondola: Grounded Vision Language Planning for Generalizable Robotic Manipulation
- Demonstration Sidetracks: Categorizing Systematic Non-Optimality in Human Demonstrations
- Sensor Model Identification via Simultaneous Model Selection and State Variable Determination
-
最近のコメント
表示できるコメントはありません。 cs.AI (39679) cs.CL (30032) cs.CV (45003) cs.HC (3029) cs.LG (44613) cs.RO (23728) cs.SY (3617) eess.IV (5159) eess.SY (3609) stat.ML (5797)
「eess.AS」カテゴリーアーカイブ
TangoFlux: Super Fast and Faithful Text to Audio Generation with Flow Matching and Clap-Ranked Preference Optimization
要約 TangoFlux は、5 億 1500 万のパラメーターを備えた効率的な … 続きを読む
ETTA: Elucidating the Design Space of Text-to-Audio Models
要約 近年、Text-To-Audio (TTA) 合成が大幅に進歩しており、ユ … 続きを読む
Building a Taiwanese Mandarin Spoken Language Model: A First Attempt
要約 この技術レポートでは、台湾華語の音声大規模言語モデル (LLM) を構築す … 続きを読む
Mamba for Streaming ASR Combined with Unimodal Aggregation
要約 この論文はストリーミング自動音声認識 (ASR) に取り組んでいます。 最 … 続きを読む
Enhancing Whisper’s Accuracy and Speed for Indian Languages through Prompt-Tuning and Tokenization
要約 自動音声認識は、最近、Whisper などの大規模な基礎モデルによって大幅 … 続きを読む
MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training
要約 自己教師あり学習 (SSL) は、視覚、テキスト、および音声の分野の大規模 … 続きを読む
Audio Array-Based 3D UAV Trajectory Estimation with LiDAR Pseudo-Labeling
要約 小型無人航空機 (UAV) の普及が進むにつれ、公共の安全とプライバシーへ … 続きを読む
Zero-resource Speech Translation and Recognition with LLMs
要約 音声処理の最近の進歩にも関わらず、ゼロリソース音声翻訳 (ST) と自動音 … 続きを読む
Long-Form Speech Generation with Spoken Language Models
要約 私たちは、長文マルチメディア生成とオーディオネイティブ音声アシスタントの要 … 続きを読む