eess.AS」カテゴリーアーカイブ

On Batching Variable Size Inputs for Training End-to-End Speech Enhancement Systems

要約 タイトル:エンドツーエンド音声強化システムのトレーニングにおける可変サイズ … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | On Batching Variable Size Inputs for Training End-to-End Speech Enhancement Systems はコメントを受け付けていません

Dialog act guided contextual adapter for personalized speech recognition

要約 タイトル:パーソナライズド音声認識のためのダイアログアクト誘導コンテキスト … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Dialog act guided contextual adapter for personalized speech recognition はコメントを受け付けていません

Exploiting prompt learning with pre-trained language models for Alzheimer’s Disease detection

要約 タイトル:プレトレーニングされた言語モデルを用いたアルツハイマー病の検出に … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Exploiting prompt learning with pre-trained language models for Alzheimer’s Disease detection はコメントを受け付けていません

The Edinburgh International Accents of English Corpus: Towards the Democratization of English ASR

要約 タイトル:The Edinburgh International Acce … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | The Edinburgh International Accents of English Corpus: Towards the Democratization of English ASR はコメントを受け付けていません

Towards Unconstrained Audio Splicing Detection and Localization with Neural Networks

要約 タイトル:ニューラルネットワークを用いた自由な音声スプライスの検出と位置特 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.SD, eess.AS | Towards Unconstrained Audio Splicing Detection and Localization with Neural Networks はコメントを受け付けていません

An efficient encoder-decoder architecture with top-down attention for speech separation

要約 タイトル: 階層的アテンションを用いた効率的なエンコーダーデコーダーアーキ … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | An efficient encoder-decoder architecture with top-down attention for speech separation はコメントを受け付けていません

Paraformer: Fast and Accurate Parallel Transformer for Non-autoregressive End-to-End Speech Recognition

要約 変圧器は最近、ASR 分野を支配しています。 優れたパフォーマンスを実現で … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Paraformer: Fast and Accurate Parallel Transformer for Non-autoregressive End-to-End Speech Recognition はコメントを受け付けていません

WavCaps: A ChatGPT-Assisted Weakly-Labelled Audio Captioning Dataset for Audio-Language Multimodal Research

要約 オーディオ言語 (AL) マルチモーダル学習タスクの進歩は、近年重要です。 … 続きを読む

カテゴリー: cs.CL, cs.MM, cs.SD, eess.AS | WavCaps: A ChatGPT-Assisted Weakly-Labelled Audio Captioning Dataset for Audio-Language Multimodal Research はコメントを受け付けていません

SynthVSR: Scaling Up Visual Speech Recognition With Synthetic Supervision

要約 最近報告された視覚的音声認識 (VSR) の最先端の結果は、ますます大量の … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.SD, eess.AS | SynthVSR: Scaling Up Visual Speech Recognition With Synthetic Supervision はコメントを受け付けていません

Effective Audio Classification Network Based on Paired Inverse Pyramid Structure and Dense MLP Block

要約 最近では、畳み込みニューラル ネットワーク (CNN) と自己注意メカニズ … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Effective Audio Classification Network Based on Paired Inverse Pyramid Structure and Dense MLP Block はコメントを受け付けていません