-
最近の投稿
- Learning to Drive Anywhere with Model-Based Reannotation11
- KineSoft: Learning Proprioceptive Manipulation Policies with Soft Robot Hands
- CityNavAgent: Aerial Vision-and-Language Navigation with Hierarchical Semantic Planning and Global Memory
- Closing the Loop: Motion Prediction Models beyond Open-Loop Benchmarks
- Adaptive Stress Testing Black-Box LLM Planners
-
最近のコメント
表示できるコメントはありません。 cs.AI (37890) cs.CL (28643) cs.CV (43507) cs.HC (2900) cs.LG (42826) cs.RO (22521) cs.SY (3457) eess.IV (5045) eess.SY (3449) stat.ML (5583)
「cs.SD」カテゴリーアーカイブ
WaveletGPT: Wavelets Meet Large Language Models
要約 大規模言語モデル (LLM) は、あらゆる科学分野と専門分野に影響を与える … 続きを読む
Dialectal Coverage And Generalization in Arabic Speech Recognition
要約 豊かな方言多様性を特徴とし、音声技術においてリソースが少ない言語とみなされ … 続きを読む
DiffStyleTTS: Diffusion-based Hierarchical Prosody Modeling for Text-to-Speech with Diverse and Controllable Styles
要約 人間の音声は豊かで柔軟な韻律のバリエーションを示します。 合理的かつ柔軟な … 続きを読む
SINGER: Vivid Audio-driven Singing Video Generation with Multi-scale Spectral Diffusion Model
要約 生成モデルの最近の進歩により、話し顔ビデオの生成は大幅に強化されましたが、 … 続きを読む
GLM-4-Voice: Towards Intelligent and Human-Like End-to-End Spoken Chatbot
要約 GLM-4-Voiceを紹介します。GLM-4-Voiceは、インテリジェ … 続きを読む
AV-Odyssey Bench: Can Your Multimodal LLMs Really Understand Audio-Visual Information?
要約 近年、GPT-4o、Gemini 1.5 Pro、Reka Coreなどの … 続きを読む
TTSDS — Text-to-Speech Distribution Score
要約 最近公開された Text-to-Speech (TTS) システムの多くは … 続きを読む
Scaling Speech-Text Pre-training with Synthetic Interleaved Data
要約 音声言語モデル (SpeechLM) は、音声入力を受け入れて音声出力を生 … 続きを読む
End-to-End Supervised Hierarchical Graph Clustering for Speaker Diarization
要約 話者ダイアライゼーションは、話者のアイデンティティに基づいてオーディオ録音 … 続きを読む
Unsupervised Speaker Diarization in Distributed IoT Networks Using Federated Learning
要約 このペーパーでは、ネットワーク化された IoT スタイルのオーディオ デバ … 続きを読む