-
最近の投稿
- Design of a Visual Pose Estimation Algorithm for Moon Landing
- A novel step-by-step procedure for the kinematic calibration of robots using a single draw-wire encoder
- Ultra-High-Frequency Harmony: mmWave Radar and Event Camera Orchestrate Accurate Drone Landing
- Geometric Freeze-Tag Problem
- A Dual-Motor Actuator for Ceiling Robots with High Force and High Speed Capabilities
-
最近のコメント
表示できるコメントはありません。 cs.AI (34107) cs.CL (25783) cs.CR (2623) cs.CV (40027) cs.LG (39092) cs.RO (19895) cs.SY (3026) eess.IV (4764) eess.SY (3020) stat.ML (5162)
「eess.AS」カテゴリーアーカイブ
VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and Dataset
要約 この論文では、マルチモーダルな理解と生成のための視覚・音声・言語オムニ知覚 … 続きを読む
Piano Transcription by Hierarchical Language Modeling with Pretrained Roll-based Encoders
要約 生のオーディオから音符を取得することを目的とした自動音楽転写 (AMT) … 続きを読む
Single-Channel Distance-Based Source Separation for Mobile GPU in Outdoor and Indoor Environments
要約 この研究は、屋外環境における距離ベースの音源分離 (DSS) を探求する重 … 続きを読む
OmniFlatten: An End-to-end GPT Model for Seamless Voice Conversation
要約 全二重音声対話システムは、従来のターンベースの対話システムを大幅に凌駕して … 続きを読む
Disentangling Speakers in Multi-Talker Speech Recognition with Speaker-Aware CTC
要約 複数話者による音声認識(MTASR)は、重複音声の分離と書き起こしにおいて … 続きを読む
VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction
要約 近年のマルチモーダル大規模言語モデル(MLLM)は、通常、視覚とテキストモ … 続きを読む
MuQ: Self-Supervised Music Representation Learning with Mel Residual Vector Quantization
要約 近年、音楽タグ付け、楽器分類、キー検出など、様々な音楽インフォマティクス理 … 続きを読む
Speech Retrieval-Augmented Generation without Automatic Speech Recognition
要約 音声データに対する質問応答の一般的なアプローチの1つは、まず自動音声認識( … 続きを読む
AdaptVC: High Quality Voice Conversion with Adaptive Learning
要約 音声変換の目標は、元のコンテンツを保持しながら、ソーススピーカーの音声をリ … 続きを読む