「cs.SD」カテゴリーアーカイブ

Evaluation of real-time transcriptions using end-to-end ASR models

投稿日: 2024年9月10日作成者: jarxiv

要約自動音声認識 (ASR) または Speech-to-text (STT) … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.SD, I.2.7 | コメントを受け付けていません

Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning

投稿日: 2024年9月10日作成者: jarxiv

要約最近、AI コミュニティは、大規模なマルチモーダルデータセットを活用した … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Innovative Speech-Based Deep Learning Approaches for Parkinson’s Disease Classification: A Systematic Review

投稿日: 2024年9月9日作成者: jarxiv

要約パーキンソン病 (PD) は世界で 2 番目に蔓延している神経変性疾患であ … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Enhancing Code-Switching Speech Recognition with LID-Based Collaborative Mixture of Experts Model

投稿日: 2024年9月6日作成者: jarxiv

要約異なる言語間の音声の類似性をモデル化することは本質的に難しいため、コードス … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

LAST: Language Model Aware Speech Tokenization

投稿日: 2024年9月6日作成者: jarxiv

要約音声トークン化は音声言語モデル (LM) の基礎として機能し、音声言語モデ … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Raw Speech Enhancement with Deep State Space Modeling

投稿日: 2024年9月6日作成者: jarxiv

要約エンドツーエンド方式でオンラインの生の音声を効率的に強化するために構成され … 続きを読む →

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Temporal Order Preserved Optimal Transport-based Cross-modal Knowledge Transfer Learning for ASR

投稿日: 2024年9月6日作成者: jarxiv

要約言語知識を事前学習済み言語モデル (PLM) から音響モデルに転送すると、 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Multimodal Laryngoscopic Video Analysis for Assisted Diagnosis of Vocal Cord Paralysis

投稿日: 2024年9月6日作成者: jarxiv

要約この論文では、音声データとビデオデータを組み合わせて、臨床評価のために喉 … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

Serialized Speech Information Guidance with Overlapped Encoding Separation for Multi-Speaker Automatic Speech Recognition

投稿日: 2024年9月6日作成者: jarxiv

要約シリアル化出力トレーニング (SOT) は、マルチ話者の自動音声認識 (A … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

Segment Beyond View: Handling Partially Missing Modality for Audio-Visual Semantic Segmentation

投稿日: 2024年9月6日作成者: jarxiv

要約拡張現実 (AR) デバイスは、著名なモバイルインタラクションプラット … 続きを読む →

カテゴリー: cs.CV, cs.SD, eess.AS | コメントを受け付けていません

「cs.SD」カテゴリーアーカイブ

Evaluation of real-time transcriptions using end-to-end ASR models

Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning

Innovative Speech-Based Deep Learning Approaches for Parkinson’s Disease Classification: A Systematic Review

Enhancing Code-Switching Speech Recognition with LID-Based Collaborative Mixture of Experts Model

LAST: Language Model Aware Speech Tokenization

Raw Speech Enhancement with Deep State Space Modeling

Temporal Order Preserved Optimal Transport-based Cross-modal Knowledge Transfer Learning for ASR

Multimodal Laryngoscopic Video Analysis for Assisted Diagnosis of Vocal Cord Paralysis

Serialized Speech Information Guidance with Overlapped Encoding Separation for Multi-Speaker Automatic Speech Recognition

Segment Beyond View: Handling Partially Missing Modality for Audio-Visual Semantic Segmentation

最近の投稿

最近のコメント

アーカイブ

カテゴリー