-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.SD」カテゴリーアーカイブ
Sounding that Object: Interactive Object-Aware Image to Audio Generation
要約 複雑なオーディオビジュアルシーンに対して正確なサウンドを生成することは、特 … 続きを読む
Improving Multilingual Speech Models on ML-SUPERB 2.0: Fine-tuning with Data Augmentation and LID-Aware CTC
要約 教師ありまたは教師ありで事前に学習された音声基礎モデル(SFM)を用いた多 … 続きを読む
TalkingMachines: Real-Time Audio-Driven FaceTime-Style Video via Autoregressive Diffusion Models
要約 本論文では、TalkingMachinesを紹介する。TalkingMac … 続きを読む
Egocentric Speaker Classification in Child-Adult Dyadic Interactions: From Sensing to Computational Modeling
要約 自閉症スペクトラム障害(ASD)は、社会的コミュニケーション、反復行動、お … 続きを読む
SpeechT: Findings of the First Mentorship in Speech Translation
要約 この作品は、2024年12月と2025年1月に開催されたスピーチ翻訳の最初 … 続きを読む
Bemba Speech Translation: Exploring a Low-Resource African Language
要約 このホワイトペーパーでは、スポークン言語翻訳に関する国際会議(IWSLT … 続きを読む
Efficient Speech Translation through Model Compression and Knowledge Distillation
要約 音声翻訳のための大規模なオーディオ言語モデルの効率的な展開は、重要な計算要 … 続きを読む
ReelWave: Multi-Agentic Movie Sound Generation through Multimodal LLM Conversation
要約 テキストまたはビデオで条件付けられた現在のオーディオ生成は、オーディオをテ … 続きを読む
Voice Conversion Improves Cross-Domain Robustness for Spoken Arabic Dialect Identification
要約 アラビア語の方言識別(ADI)システムは、アラビア語の品種のための包括的な … 続きを読む
Mitigating Subgroup Disparities in Multi-Label Speech Emotion Recognition: A Pseudo-Labeling and Unsupervised Learning Approach
要約 サブグループの格差とパフォーマンスバイアスは計算研究でますます研究されてい … 続きを読む