-
最近の投稿
- A Hierarchical Reinforcement Learning Framework for Multi-UAV Combat Using Leader-Follower Strategy
- A 65 nm Bayesian Neural Network Accelerator with 360 fJ/Sample In-Word GRNG for AI Uncertainty Estimation
- Map Prediction and Generative Entropy for Multi-Agent Exploration
- Polyhedral Collision Detection via Vertex Enumeration
- Safe and Efficient Robot Action Planning in the Presence of Unconcerned Humans
-
最近のコメント
表示できるコメントはありません。 cs.AI (32657) cs.CL (24688) cs.CR (2523) cs.CV (38845) cs.LG (37527) cs.RO (19009) cs.SY (2906) eess.IV (4656) eess.SY (2900) stat.ML (4944)
「cs.SD」カテゴリーアーカイブ
Speech Foundation Models and Crowdsourcing for Efficient, High-Quality Data Collection
要約 クラウドソーシングは音声データの収集を容易にし、拡張するための確立されたソ … 続きを読む
autrainer: A Modular and Extensible Deep Learning Toolkit for Computer Audition Tasks
要約 この研究では、コンピューターオーディションタスク用の新しい深層学習トレーニ … 続きを読む
SonicBoom: Contact Localization Using Array of Microphones
要約 農業環境など、視覚センサーが重度の遮蔽に遭遇する乱雑な環境では、触覚信号は … 続きを読む
Enhancing Temporal Understanding in Audio Question Answering for Large Audio Language Models
要約 音声質問応答 (AQA) タスクには、音声イベント分類、音声キャプション、 … 続きを読む
CosyVoice 2: Scalable Streaming Speech Synthesis with Large Language Models
要約 前回の研究では、教師付き離散音声トークンに基づく多言語音声合成モデルである … 続きを読む
Missing Melodies: AI Music Generation and its ‘Nearly’ Complete Omission of the Global South
要約 生成 AI の最近の進歩により、音楽生成に対する新たな関心と可能性が広がり … 続きを読む
Audios Don’t Lie: Multi-Frequency Channel Attention Mechanism for Audio Deepfake Detection
要約 人工知能技術の急速な発展に伴い、オーディオ分野でのディープフェイク技術の適 … 続きを読む
Watermarking Training Data of Music Generation Models
要約 生成人工知能 (Gen-AI) モデルは、テキスト、画像、オーディオなどの … 続きを読む
EmoSpeech: A Corpus of Emotionally Rich and Contextually Detailed Speech Annotations
要約 テキスト読み上げ (TTS) テクノロジーの進歩により、生成される音声の品 … 続きを読む
Watermarking Training Data of Music Generation Models
要約 生成人工知能 (Gen-AI) モデルは、テキスト、画像、オーディオなどの … 続きを読む