cs.SD」カテゴリーアーカイブ

Harmonic Reasoning in Large Language Models

要約 大規模言語モデル (LLM) は非常に人気があり、芸術における創造的なタス … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD | Harmonic Reasoning in Large Language Models はコメントを受け付けていません

PDAF: A Phonetic Debiasing Attention Framework For Speaker Verification

要約 話者認証システムは、音声による身元認証に不可欠です。 従来、これらのシステ … 続きを読む

カテゴリー: cs.CL, cs.SD | PDAF: A Phonetic Debiasing Attention Framework For Speaker Verification はコメントを受け付けていません

Evaluation of real-time transcriptions using end-to-end ASR models

要約 自動音声認識 (ASR) または Speech-to-text (STT) … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, I.2.7 | Evaluation of real-time transcriptions using end-to-end ASR models はコメントを受け付けていません

Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning

要約 最近、AI コミュニティは、大規模なマルチモーダル データセットを活用した … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning はコメントを受け付けていません

Innovative Speech-Based Deep Learning Approaches for Parkinson’s Disease Classification: A Systematic Review

要約 パーキンソン病 (PD) は世界で 2 番目に蔓延している神経変性疾患であ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | Innovative Speech-Based Deep Learning Approaches for Parkinson’s Disease Classification: A Systematic Review はコメントを受け付けていません

Enhancing Code-Switching Speech Recognition with LID-Based Collaborative Mixture of Experts Model

要約 異なる言語間の音声の類似性をモデル化することは本質的に難しいため、コードス … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Enhancing Code-Switching Speech Recognition with LID-Based Collaborative Mixture of Experts Model はコメントを受け付けていません

LAST: Language Model Aware Speech Tokenization

要約 音声トークン化は音声言語モデル (LM) の基礎として機能し、音声言語モデ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | LAST: Language Model Aware Speech Tokenization はコメントを受け付けていません

Raw Speech Enhancement with Deep State Space Modeling

要約 エンドツーエンド方式でオンラインの生の音声を効率的に強化するために構成され … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | Raw Speech Enhancement with Deep State Space Modeling はコメントを受け付けていません

Temporal Order Preserved Optimal Transport-based Cross-modal Knowledge Transfer Learning for ASR

要約 言語知識を事前学習済み言語モデル (PLM) から音響モデルに転送すると、 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | Temporal Order Preserved Optimal Transport-based Cross-modal Knowledge Transfer Learning for ASR はコメントを受け付けていません

Multimodal Laryngoscopic Video Analysis for Assisted Diagnosis of Vocal Cord Paralysis

要約 この論文では、音声データとビデオ データを組み合わせて、臨床評価のために喉 … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Multimodal Laryngoscopic Video Analysis for Assisted Diagnosis of Vocal Cord Paralysis はコメントを受け付けていません