-
最近の投稿
- Topological mapping for traversability-aware long-range navigation in off-road terrain
- Equality Constrained Diffusion for Direct Trajectory Optimization
- Learning-Based Autonomous Navigation, Benchmark Environments and Simulation Framework for Endovascular Interventions
- Language Supervised Human Action Recognition with Salient Fusion: Construction Worker Action Recognition as a Use Case
- Bi-Level Motion Imitation for Humanoid Robots
-
最近のコメント
表示できるコメントはありません。 cs.AI (27641) cs.CL (20879) cs.CR (2167) cs.CV (34375) cs.LG (32373) cs.RO (15816) cs.SY (2460) eess.IV (4221) eess.SY (2454) stat.ML (4339)
「cs.SD」カテゴリーアーカイブ
Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming
要約 言語モデルの最近の進歩は大幅な進歩を遂げています。 GPT-4o は新たな … 続きを読む
Easy, Interpretable, Effective: openSMILE for voice deepfake detection
要約 この論文では、音声の信頼性とディープフェイク検出の分野における事実上の標準 … 続きを読む
Multi-modal Adversarial Training for Zero-Shot Voice Cloning
要約 与えられたテキストから音声を再構築するようにトレーニングされたテキスト読み … 続きを読む
SimpleSpeech 2: Towards Simple and Efficient Text-to-Speech with Flow-based Scalar Latent Transformer Diffusion Models
要約 Text-to-speech (TTS) を大規模なデータセットにスケーリ … 続きを読む
Beyond Levenshtein: Leveraging Multiple Algorithms for Robust Word Error Rate Computations And Granular Error Classifications
要約 単語誤り率 (WER) は、自動音声認識 (ASR) の精度の一般的な尺度 … 続きを読む
Easy, Interpretable, Effective: openSMILE for voice deepfake detection
要約 この論文では、音声の信頼性とディープフェイク検出の分野における事実上の標準 … 続きを読む
ModalityMirror: Improving Audio Classification in Modality Heterogeneity Federated Learning with Multimodal Distillation
要約 マルチモーダル Federated Learning では、クライアント … 続きを読む
Proceedings of The second international workshop on eXplainable AI for the Arts (XAIxArts)
要約 Explainable AI for the Arts (XAIxArts … 続きを読む
A Functional Trade-off between Prosodic and Semantic Cues in Conveying Sarcasm
要約 この研究では、皮肉の音響的特徴を調査し、皮肉として使用される発話の傾向と皮 … 続きを読む
Speech Recognition Transformers: Topological-lingualism Perspective
要約 トランスフォーマーは、さまざまな人工知能タスクにおいて大きな成功を収めなが … 続きを読む