eess.AS」カテゴリーアーカイブ

Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming

要約 言語モデルの最近の進歩は大幅な進歩を遂げています。 GPT-4o は新たな … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.HC, cs.LG, cs.SD, eess.AS | Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming はコメントを受け付けていません

Easy, Interpretable, Effective: openSMILE for voice deepfake detection

要約 この論文では、音声の信頼性とディープフェイク検出の分野における事実上の標準 … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Easy, Interpretable, Effective: openSMILE for voice deepfake detection はコメントを受け付けていません

Multi-modal Adversarial Training for Zero-Shot Voice Cloning

要約 与えられたテキストから音声を再構築するようにトレーニングされたテキスト読み … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Multi-modal Adversarial Training for Zero-Shot Voice Cloning はコメントを受け付けていません

SimpleSpeech 2: Towards Simple and Efficient Text-to-Speech with Flow-based Scalar Latent Transformer Diffusion Models

要約 Text-to-speech (TTS) を大規模なデータセットにスケーリ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | SimpleSpeech 2: Towards Simple and Efficient Text-to-Speech with Flow-based Scalar Latent Transformer Diffusion Models はコメントを受け付けていません

Beyond Levenshtein: Leveraging Multiple Algorithms for Robust Word Error Rate Computations And Granular Error Classifications

要約 単語誤り率 (WER) は、自動音声認識 (ASR) の精度の一般的な尺度 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS, I.2.7 | Beyond Levenshtein: Leveraging Multiple Algorithms for Robust Word Error Rate Computations And Granular Error Classifications はコメントを受け付けていません

Easy, Interpretable, Effective: openSMILE for voice deepfake detection

要約 この論文では、音声の信頼性とディープフェイク検出の分野における事実上の標準 … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Easy, Interpretable, Effective: openSMILE for voice deepfake detection はコメントを受け付けていません

ModalityMirror: Improving Audio Classification in Modality Heterogeneity Federated Learning with Multimodal Distillation

要約 マルチモーダル Federated Learning では、クライアント … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | ModalityMirror: Improving Audio Classification in Modality Heterogeneity Federated Learning with Multimodal Distillation はコメントを受け付けていません

Proceedings of The second international workshop on eXplainable AI for the Arts (XAIxArts)

要約 Explainable AI for the Arts (XAIxArts … 続きを読む

カテゴリー: cs.AI, cs.HC, cs.MM, cs.SD, eess.AS | Proceedings of The second international workshop on eXplainable AI for the Arts (XAIxArts) はコメントを受け付けていません

A Functional Trade-off between Prosodic and Semantic Cues in Conveying Sarcasm

要約 この研究では、皮肉の音響的特徴を調査し、皮肉として使用される発話の傾向と皮 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | A Functional Trade-off between Prosodic and Semantic Cues in Conveying Sarcasm はコメントを受け付けていません

Speech Recognition Transformers: Topological-lingualism Perspective

要約 トランスフォーマーは、さまざまな人工知能タスクにおいて大きな成功を収めなが … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Speech Recognition Transformers: Topological-lingualism Perspective はコメントを受け付けていません