-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「eess.AS」カテゴリーアーカイブ
Piano Transcription by Hierarchical Language Modeling with Pretrained Roll-based Encoders
要約 生のオーディオから音符を取得することを目的とした自動音楽転写 (AMT) … 続きを読む
Samba-ASR: State-Of-The-Art Speech Recognition Leveraging Structured State-Space Models
要約 私たちは、状態空間モデル (SSM) の基礎に基づいて構築された、新しい … 続きを読む
Noise-Robust Target-Speaker Voice Activity Detection Through Self-Supervised Pretraining
要約 ターゲット話者の音声アクティビティ検出 (TS-VAD) は、オーディオ … 続きを読む
Multimodal Machine Learning Can Predict Videoconference Fluidity and Enjoyment
要約 ビデオ会議は現在、仕事上でも非公式でも頻繁に行われるコミュニケーション手段 … 続きを読む
Samba-asr state-of-the-art speech recognition leveraging structured state-space models
要約 私たちは、状態空間モデル (SSM) の基盤上に構築された、エンコーダーと … 続きを読む
VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and Dataset
要約 この論文では、マルチモーダルな理解と生成のための視覚・音声・言語オムニ知覚 … 続きを読む
Piano Transcription by Hierarchical Language Modeling with Pretrained Roll-based Encoders
要約 生のオーディオから音符を取得することを目的とした自動音楽転写 (AMT) … 続きを読む
Single-Channel Distance-Based Source Separation for Mobile GPU in Outdoor and Indoor Environments
要約 この研究は、屋外環境における距離ベースの音源分離 (DSS) を探求する重 … 続きを読む
OmniFlatten: An End-to-end GPT Model for Seamless Voice Conversation
要約 全二重音声対話システムは、従来のターンベースの対話システムを大幅に凌駕して … 続きを読む
Disentangling Speakers in Multi-Talker Speech Recognition with Speaker-Aware CTC
要約 複数話者による音声認識(MTASR)は、重複音声の分離と書き起こしにおいて … 続きを読む