-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「eess.AS」カテゴリーアーカイブ
Moonshine: Speech Recognition for Live Transcription and Voice Commands
要約 このペーパーでは、ライブ文字起こしと音声コマンド処理用に最適化された音声認 … 続きを読む
Continuous Speech Tokenizer in Text To Speech
要約 大規模な言語モデルの時代における音声と言語の融合は、大きな注目を集めていま … 続きを読む
Audio-to-Score Conversion Model Based on Whisper methodology
要約 この論文では、音楽オーディオからメロディーとコードを抽出し、ABC 記譜法 … 続きを読む
Can a Machine Distinguish High and Low Amount of Social Creak in Speech?
要約 目的: 特に女性の話者の間で社交的きしみの有病率が増加していることが、いく … 続きを読む
VoiceBench: Benchmarking LLM-Based Voice Assistants
要約 大規模言語モデル (LLM) の成功に基づいて、GPT-4o などの最近の … 続きを読む
Can Large Audio-Language Models Truly Hear? Tackling Hallucinations with Multi-Task Assessment and Stepwise Audio Reasoning
要約 大規模音声言語モデル (LALM) の最近の進歩により、音声および音声情報 … 続きを読む
The First VoicePrivacy Attacker Challenge Evaluation Plan
要約 First VoicePrivacy Attacker Challenge … 続きを読む
Proceedings of The second international workshop on eXplainable AI for the Arts (XAIxArts)
要約 Explainable AI for the Arts (XAIxArts … 続きを読む
Advocating Character Error Rate for Multilingual ASR Evaluation
要約 自動音声認識 (ASR) システムは従来、英語のデータセットを使用して評価 … 続きを読む