-
最近の投稿
- Non-Gaited Legged Locomotion with Monte-Carlo Tree Search and Supervised Learning
- Agricultural Industry Initiatives on Autonomy: How collaborative initiatives of VDMA and AEF can facilitate complexity in domain crossing harmonization needs
- Physics-Grounded Differentiable Simulation for Soft Growing Robots
- SLIM: Sim-to-Real Legged Instructive Manipulation via Long-Horizon Visuomotor Learning
- Online Trajectory Replanner for Dynamically Grasping Irregular Objects
-
最近のコメント
表示できるコメントはありません。 cs.AI (32994) cs.CL (24943) cs.CR (2553) cs.CV (39129) cs.LG (37903) cs.RO (19188) cs.SY (2936) eess.IV (4690) eess.SY (2930) stat.ML (4984)
「cs.SD」カテゴリーアーカイブ
SimpleSpeech 2: Towards Simple and Efficient Text-to-Speech with Flow-based Scalar Latent Transformer Diffusion Models
要約 Text-to-speech (TTS) を大規模なデータセットにスケーリ … 続きを読む
Beyond Levenshtein: Leveraging Multiple Algorithms for Robust Word Error Rate Computations And Granular Error Classifications
要約 単語誤り率 (WER) は、自動音声認識 (ASR) の精度の一般的な尺度 … 続きを読む
Easy, Interpretable, Effective: openSMILE for voice deepfake detection
要約 この論文では、音声の信頼性とディープフェイク検出の分野における事実上の標準 … 続きを読む
ModalityMirror: Improving Audio Classification in Modality Heterogeneity Federated Learning with Multimodal Distillation
要約 マルチモーダル Federated Learning では、クライアント … 続きを読む
Proceedings of The second international workshop on eXplainable AI for the Arts (XAIxArts)
要約 Explainable AI for the Arts (XAIxArts … 続きを読む
A Functional Trade-off between Prosodic and Semantic Cues in Conveying Sarcasm
要約 この研究では、皮肉の音響的特徴を調査し、皮肉として使用される発話の傾向と皮 … 続きを読む
Speech Recognition Transformers: Topological-lingualism Perspective
要約 トランスフォーマーは、さまざまな人工知能タスクにおいて大きな成功を収めなが … 続きを読む
Unlocking Potential in Pre-Trained Music Language Models for Versatile Multi-Track Music Arrangement
要約 大規模な言語モデルは、記号音楽の生成など、さまざまな領域にわたって重要な機 … 続きを読む
Infusing Acoustic Pause Context into Text-Based Dementia Assessment
要約 音声の一時停止は、内容や構造と並んで、認知症を検出するための貴重で非侵襲的 … 続きを読む