cs.SD」カテゴリーアーカイブ

SimpleSpeech 2: Towards Simple and Efficient Text-to-Speech with Flow-based Scalar Latent Transformer Diffusion Models

要約 Text-to-speech (TTS) を大規模なデータセットにスケーリ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | SimpleSpeech 2: Towards Simple and Efficient Text-to-Speech with Flow-based Scalar Latent Transformer Diffusion Models はコメントを受け付けていません

Beyond Levenshtein: Leveraging Multiple Algorithms for Robust Word Error Rate Computations And Granular Error Classifications

要約 単語誤り率 (WER) は、自動音声認識 (ASR) の精度の一般的な尺度 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS, I.2.7 | Beyond Levenshtein: Leveraging Multiple Algorithms for Robust Word Error Rate Computations And Granular Error Classifications はコメントを受け付けていません

Easy, Interpretable, Effective: openSMILE for voice deepfake detection

要約 この論文では、音声の信頼性とディープフェイク検出の分野における事実上の標準 … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Easy, Interpretable, Effective: openSMILE for voice deepfake detection はコメントを受け付けていません

ModalityMirror: Improving Audio Classification in Modality Heterogeneity Federated Learning with Multimodal Distillation

要約 マルチモーダル Federated Learning では、クライアント … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | ModalityMirror: Improving Audio Classification in Modality Heterogeneity Federated Learning with Multimodal Distillation はコメントを受け付けていません

Proceedings of The second international workshop on eXplainable AI for the Arts (XAIxArts)

要約 Explainable AI for the Arts (XAIxArts … 続きを読む

カテゴリー: cs.AI, cs.HC, cs.MM, cs.SD, eess.AS | Proceedings of The second international workshop on eXplainable AI for the Arts (XAIxArts) はコメントを受け付けていません

A Functional Trade-off between Prosodic and Semantic Cues in Conveying Sarcasm

要約 この研究では、皮肉の音響的特徴を調査し、皮肉として使用される発話の傾向と皮 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | A Functional Trade-off between Prosodic and Semantic Cues in Conveying Sarcasm はコメントを受け付けていません

Speech Recognition Transformers: Topological-lingualism Perspective

要約 トランスフォーマーは、さまざまな人工知能タスクにおいて大きな成功を収めなが … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Speech Recognition Transformers: Topological-lingualism Perspective はコメントを受け付けていません

Unlocking Potential in Pre-Trained Music Language Models for Versatile Multi-Track Music Arrangement

要約 大規模な言語モデルは、記号音楽の生成など、さまざまな領域にわたって重要な機 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Unlocking Potential in Pre-Trained Music Language Models for Versatile Multi-Track Music Arrangement はコメントを受け付けていません

Infusing Acoustic Pause Context into Text-Based Dementia Assessment

要約 音声の一時停止は、内容や構造と並んで、認知症を検出するための貴重で非侵襲的 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Infusing Acoustic Pause Context into Text-Based Dementia Assessment はコメントを受け付けていません

Human Perception of Audio Deepfakes

要約 最近のディープフェイクの出現により、操作され生成されたコンテンツが機械学習 … 続きを読む

カテゴリー: cs.AI, cs.HC, cs.SD, eess.AS | Human Perception of Audio Deepfakes はコメントを受け付けていません