-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「eess.AS」カテゴリーアーカイブ
Efficient Speech Translation through Model Compression and Knowledge Distillation
要約 音声翻訳のための大規模なオーディオ言語モデルの効率的な展開は、重要な計算要 … 続きを読む
From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data
要約 オーディオ認識の大規模な言語モデル(ALLMS)は、最近、オーディオ入力を … 続きを読む
Towards Video to Piano Music Generation with Chain-of-Perform Support Benchmarks
要約 ビデオから高品質のピアノオーディオを生成するには、視覚的な手がかりと音楽出 … 続きを読む
DualTalk: Dual-Speaker Interaction for 3D Talking Head Conversations
要約 対面での会話では、個人はスピーキングとリスニングの役割を切り替える必要があ … 続きを読む
CrossMuSim: A Cross-Modal Framework for Music Similarity Retrieval with LLM-Powered Text Description Sourcing and Mining
要約 音楽の類似性検索は、ストリーミングプラットフォームの大規模なコレクションか … 続きを読む
DualTalk: Dual-Speaker Interaction for 3D Talking Head Conversations
要約 対面での会話では、個人はスピーキングとリスニングの役割を切り替える必要があ … 続きを読む
Active Speech Enhancement: Active Speech Denoising Decliping and Deveraberation
要約 アクティブなサウンド変更のための新しいパラダイムを紹介します:アクティブな … 続きを読む
From Tens of Hours to Tens of Thousands: Scaling Back-Translation for Speech Recognition
要約 自動音声認識(ASR)の最近の進歩は、大規模な音声コーパスによって大きく促 … 続きを読む
Slamming: Training a Speech Language Model on One GPU in a Day
要約 24時間で単一のアカデミックGPUで高品質の音声言語モデル(SLM)をトレ … 続きを読む
Active Speech Enhancement: Active Speech Denoising Decliping and Deveraberation
要約 アクティブなサウンド変更のための新しいパラダイムを紹介します:アクティブな … 続きを読む