-
最近の投稿
- Topological mapping for traversability-aware long-range navigation in off-road terrain
- Equality Constrained Diffusion for Direct Trajectory Optimization
- Learning-Based Autonomous Navigation, Benchmark Environments and Simulation Framework for Endovascular Interventions
- Language Supervised Human Action Recognition with Salient Fusion: Construction Worker Action Recognition as a Use Case
- Bi-Level Motion Imitation for Humanoid Robots
-
最近のコメント
表示できるコメントはありません。 cs.AI (27641) cs.CL (20879) cs.CR (2167) cs.CV (34375) cs.LG (32373) cs.RO (15816) cs.SY (2460) eess.IV (4221) eess.SY (2454) stat.ML (4339)
「cs.SD」カテゴリーアーカイブ
LLaMA-Omni: Seamless Speech Interaction with Large Language Models
要約 GPT-4o のようなモデルは、音声による大規模言語モデル (LLM) と … 続きを読む
Benchmarking Sub-Genre Classification For Mainstage Dance Music
要約 音楽の分類は、幅広い用途に対応しており、音楽情報の検索において最も重要なタ … 続きを読む
IndicVoices-R: Unlocking a Massive Multilingual Multi-speaker Speech Corpus for Scaling Indian TTS
要約 Text-to-Speech (TTS) 合成の最近の進歩により、広範な … 続きを読む
Harmonic Reasoning in Large Language Models
要約 大規模言語モデル (LLM) は非常に人気があり、芸術における創造的なタス … 続きを読む
PDAF: A Phonetic Debiasing Attention Framework For Speaker Verification
要約 話者認証システムは、音声による身元認証に不可欠です。 従来、これらのシステ … 続きを読む
Evaluation of real-time transcriptions using end-to-end ASR models
要約 自動音声認識 (ASR) または Speech-to-text (STT) … 続きを読む
Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning
要約 最近、AI コミュニティは、大規模なマルチモーダル データセットを活用した … 続きを読む
Innovative Speech-Based Deep Learning Approaches for Parkinson’s Disease Classification: A Systematic Review
要約 パーキンソン病 (PD) は世界で 2 番目に蔓延している神経変性疾患であ … 続きを読む
Enhancing Code-Switching Speech Recognition with LID-Based Collaborative Mixture of Experts Model
要約 異なる言語間の音声の類似性をモデル化することは本質的に難しいため、コードス … 続きを読む
LAST: Language Model Aware Speech Tokenization
要約 音声トークン化は音声言語モデル (LM) の基礎として機能し、音声言語モデ … 続きを読む