eess.AS」カテゴリーアーカイブ

LLaMA-Omni: Seamless Speech Interaction with Large Language Models

要約 GPT-4o のようなモデルは、音声による大規模言語モデル (LLM) と … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS, I.2.7 | LLaMA-Omni: Seamless Speech Interaction with Large Language Models はコメントを受け付けていません

YOLO-Stutter: End-to-end Region-Wise Speech Dysfluency Detection

要約 流暢でない音声検出は、無秩序な音声分析や音声言語学習のボトルネックとなりま … 続きを読む

カテゴリー: cs.AI, cs.CL, eess.AS | YOLO-Stutter: End-to-end Region-Wise Speech Dysfluency Detection はコメントを受け付けていません

Longer is (Not Necessarily) Stronger: Punctuated Long-Sequence Training for Enhanced Speech Recognition and Translation

要約 この論文では、音声認識および翻訳タスク用のシーケンス間モデルをトレーニング … 続きを読む

カテゴリー: cs.CL, eess.AS | Longer is (Not Necessarily) Stronger: Punctuated Long-Sequence Training for Enhanced Speech Recognition and Translation はコメントを受け付けていません

Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning

要約 最近、AI コミュニティは、大規模なマルチモーダル データセットを活用した … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning はコメントを受け付けていません

Innovative Speech-Based Deep Learning Approaches for Parkinson’s Disease Classification: A Systematic Review

要約 パーキンソン病 (PD) は世界で 2 番目に蔓延している神経変性疾患であ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | Innovative Speech-Based Deep Learning Approaches for Parkinson’s Disease Classification: A Systematic Review はコメントを受け付けていません

Privacy versus Emotion Preservation Trade-offs in Emotion-Preserving Speaker Anonymization

要約 音声技術の進歩により、音声を通じて個人を特定できる情報に前例のないアクセス … 続きを読む

カテゴリー: cs.LG, eess.AS | Privacy versus Emotion Preservation Trade-offs in Emotion-Preserving Speaker Anonymization はコメントを受け付けていません

Enhancing Code-Switching Speech Recognition with LID-Based Collaborative Mixture of Experts Model

要約 異なる言語間の音声の類似性をモデル化することは本質的に難しいため、コードス … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Enhancing Code-Switching Speech Recognition with LID-Based Collaborative Mixture of Experts Model はコメントを受け付けていません

LAST: Language Model Aware Speech Tokenization

要約 音声トークン化は音声言語モデル (LM) の基礎として機能し、音声言語モデ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | LAST: Language Model Aware Speech Tokenization はコメントを受け付けていません

Raw Speech Enhancement with Deep State Space Modeling

要約 エンドツーエンド方式でオンラインの生の音声を効率的に強化するために構成され … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | Raw Speech Enhancement with Deep State Space Modeling はコメントを受け付けていません

Temporal Order Preserved Optimal Transport-based Cross-modal Knowledge Transfer Learning for ASR

要約 言語知識を事前学習済み言語モデル (PLM) から音響モデルに転送すると、 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | Temporal Order Preserved Optimal Transport-based Cross-modal Knowledge Transfer Learning for ASR はコメントを受け付けていません