-
最近の投稿
- TOFFE — Temporally-binned Object Flow from Events for High-speed and Energy-Efficient Object Detection and Tracking
- ELEGNT: Expressive and Functional Movement Design for Non-anthropomorphic Robot
- Tightly Coupled SLAM with Imprecise Architectural Plans
- LatentBKI: Open-Dictionary Continuous Mapping in Visual-Language Latent Spaces with Quantifiable Uncertainty
- Interaction Dataset of Autonomous Vehicles with Traffic Lights and Signs
-
最近のコメント
表示できるコメントはありません。 cs.AI (32585) cs.CL (24637) cs.CR (2521) cs.CV (38784) cs.LG (37457) cs.RO (18976) cs.SY (2901) eess.IV (4651) eess.SY (2895) stat.ML (4943)
「cs.SD」カテゴリーアーカイブ
Samba-ASR: State-Of-The-Art Speech Recognition Leveraging Structured State-Space Models
要約 私たちは、状態空間モデル (SSM) の基礎に基づいて構築された、新しい … 続きを読む
Noise-Robust Target-Speaker Voice Activity Detection Through Self-Supervised Pretraining
要約 ターゲット話者の音声アクティビティ検出 (TS-VAD) は、オーディオ … 続きを読む
Samba-asr state-of-the-art speech recognition leveraging structured state-space models
要約 私たちは、状態空間モデル (SSM) の基盤上に構築された、エンコーダーと … 続きを読む
Piano Transcription by Hierarchical Language Modeling with Pretrained Roll-based Encoders
要約 生のオーディオから音符を取得することを目的とした自動音楽転写 (AMT) … 続きを読む
OmniFlatten: An End-to-end GPT Model for Seamless Voice Conversation
要約 全二重音声対話システムは、従来のターンベースの対話システムを大幅に凌駕して … 続きを読む
Disentangling Speakers in Multi-Talker Speech Recognition with Speaker-Aware CTC
要約 複数話者による音声認識(MTASR)は、重複音声の分離と書き起こしにおいて … 続きを読む
VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction
要約 近年のマルチモーダル大規模言語モデル(MLLM)は、通常、視覚とテキストモ … 続きを読む
MuQ: Self-Supervised Music Representation Learning with Mel Residual Vector Quantization
要約 近年、音楽タグ付け、楽器分類、キー検出など、様々な音楽インフォマティクス理 … 続きを読む
AdaptVC: High Quality Voice Conversion with Adaptive Learning
要約 音声変換の目標は、元のコンテンツを保持しながら、ソーススピーカーの音声をリ … 続きを読む