-
最近の投稿
- Decentralized Structural-RNN for Robot Crowd Navigation with Deep Reinforcement Learning
- PhysBench: Benchmarking and Enhancing Vision-Language Models for Physical World Understanding
- BiFold: Bimanual Cloth Folding with Language Guidance
- Automated Planning Domain Inference for Task and Motion Planning
- Modular Framework for Uncertainty Prediction in Autonomous Vehicle Motion Forecasting within Complex Traffic Scenarios
-
最近のコメント
表示できるコメントはありません。 cs.AI (32859) cs.CL (24839) cs.CR (2538) cs.CV (39017) cs.LG (37757) cs.RO (19118) cs.SY (2924) eess.IV (4674) eess.SY (2918) stat.ML (4974)
「cs.SD」カテゴリーアーカイブ
Comparative Analysis of Audio Feature Extraction for Real-Time Talking Portrait Synthesis
要約 このペーパーでは、リアルタイム アプリケーションで遅延が発生し、応答性が制 … 続きを読む
Basic syntax from speech: Spontaneous concatenation in unsupervised deep neural networks
要約 構文の計算モデルは主にテキストベースです。 ここで私たちは、構文の進化にお … 続きを読む
Rethinking MUSHRA: Addressing Modern Challenges in Text-to-Speech Evaluation
要約 TTS モデルは急速に進歩していますが、一貫した堅牢な人間による評価フレー … 続きを読む
DARNet: Dual Attention Refinement Network with Spatiotemporal Construction for Auditory Attention Detection
要約 カクテルパーティーでは、人間は注意を向ける驚くべき能力を発揮します。 聴覚 … 続きを読む
REBORN: Reinforcement-Learned Boundary Segmentation with Iterative Training for Unsupervised ASR
要約 教師なし自動音声認識 (ASR) は、音声とテキストのペアのデータを監視せ … 続きを読む
Local deployment of large-scale music AI models on commodity hardware
要約 私たちは、汎用ハードウェア上でローカルに大規模な生成 AI モデルを使用し … 続きを読む
Re-Parameterization of Lightweight Transformer for On-Device Speech Emotion Recognition
要約 エッジまたはモノのインターネット (IoT) デバイスでの機械学習モデルの … 続きを読む
A Comparative Study of Discrete Speech Tokens for Semantic-Related Tasks with Large Language Models
要約 Speech Large Language Model (Speech L … 続きを読む
Investigating the Effectiveness of Explainability Methods in Parkinson’s Detection from Speech
要約 パーキンソン病 (PD) における言語障害は、診断の重要な初期指標となりま … 続きを読む