-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「eess.AS」カテゴリーアーカイブ
Soundify: Matching Sound Effects to Video
要約 ビデオ編集の分野では、サウンドはオブジェクトに個性を加え、視聴者を空間に没 … 続きを読む
Towards Zero-Shot Text-To-Speech for Arabic Dialects
要約 ゼロショット マルチスピーカー テキスト読み上げ (ZS-TTS) システ … 続きを読む
Children’s Speech Recognition through Discrete Token Enhancement
要約 子供の音声認識は、主に公的に利用可能なデータが不足しているため、リソースが … 続きを読む
Towards Zero-Shot Text-To-Speech for Arabic Dialects
要約 ゼロショット マルチスピーカー テキスト読み上げ (ZS-TTS) システ … 続きを読む
Speech foundation models in healthcare: Effect of layer selection on pathological speech feature prediction
要約 音声から臨床情報を正確に抽出することは、多くの神経学的症状の診断と治療にと … 続きを読む
The Greek podcast corpus: Competitive speech models for low-resourced languages with weakly supervised data
要約 デジタル表現が限られた言語の音声技術の開発は、主に利用可能なデータの不足に … 続きを読む
Speech Emotion Recognition under Resource Constraints with Data Distillation
要約 音声感情認識 (SER) は、人間とコンピューターの対話において重要な役割 … 続きを読む
DASB — Discrete Audio and Speech Benchmark
要約 離散オーディオ トークンは、オーディオと言語処理を接続し、最新のマルチモー … 続きを読む
A Review of Common Online Speaker Diarization Methods
要約 話者ダイアリゼーションは、「誰がいつ話したか?」という質問に対する答えを提 … 続きを読む