「cs.SD」カテゴリーアーカイブ

The Edinburgh International Accents of English Corpus: Towards the Democratization of English ASR

投稿日: 2023年4月3日作成者: jarxiv

要約タイトル：The Edinburgh International Acce … 続きを読む →

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Towards Unconstrained Audio Splicing Detection and Localization with Neural Networks

投稿日: 2023年4月3日作成者: jarxiv

要約タイトル：ニューラルネットワークを用いた自由な音声スプライスの検出と位置特 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.SD, eess.AS | コメントを受け付けていません

An efficient encoder-decoder architecture with top-down attention for speech separation

投稿日: 2023年4月3日作成者: jarxiv

要約タイトル: 階層的アテンションを用いた効率的なエンコーダーデコーダーアーキ … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Paraformer: Fast and Accurate Parallel Transformer for Non-autoregressive End-to-End Speech Recognition

投稿日: 2023年3月31日作成者: jarxiv

要約変圧器は最近、ASR 分野を支配しています。優れたパフォーマンスを実現で … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

WavCaps: A ChatGPT-Assisted Weakly-Labelled Audio Captioning Dataset for Audio-Language Multimodal Research

投稿日: 2023年3月31日作成者: jarxiv

要約オーディオ言語 (AL) マルチモーダル学習タスクの進歩は、近年重要です。 … 続きを読む →

カテゴリー: cs.CL, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

SynthVSR: Scaling Up Visual Speech Recognition With Synthetic Supervision

投稿日: 2023年3月31日作成者: jarxiv

要約最近報告された視覚的音声認識 (VSR) の最先端の結果は、ますます大量の … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.SD, eess.AS | コメントを受け付けていません

Effective Audio Classification Network Based on Paired Inverse Pyramid Structure and Dense MLP Block

投稿日: 2023年3月31日作成者: jarxiv

要約最近では、畳み込みニューラルネットワーク (CNN) と自己注意メカニズ … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

Sound to Visual Scene Generation by Audio-to-Visual Latent Alignment

投稿日: 2023年3月31日作成者: jarxiv

要約オーディオは私たちの周りの世界をどのように説明しますか? 本論文では，音か … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS, eess.IV | コメントを受け付けていません

Hindi as a Second Language: Improving Visually Grounded Speech with Semantically Similar Samples

投稿日: 2023年3月31日作成者: jarxiv

要約この作業の目的は、多言語の観点から視覚的に接地された音声モデル (VGS) … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.SD, eess.AS | コメントを受け付けていません

Physics-Driven Diffusion Models for Impact Sound Synthesis from Videos

投稿日: 2023年3月30日作成者: jarxiv

要約物理的なオブジェクトの相互作用から発せられる音をモデリングすることは、現実 … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

「cs.SD」カテゴリーアーカイブ

The Edinburgh International Accents of English Corpus: Towards the Democratization of English ASR

Towards Unconstrained Audio Splicing Detection and Localization with Neural Networks

An efficient encoder-decoder architecture with top-down attention for speech separation

Paraformer: Fast and Accurate Parallel Transformer for Non-autoregressive End-to-End Speech Recognition

WavCaps: A ChatGPT-Assisted Weakly-Labelled Audio Captioning Dataset for Audio-Language Multimodal Research

SynthVSR: Scaling Up Visual Speech Recognition With Synthetic Supervision

Effective Audio Classification Network Based on Paired Inverse Pyramid Structure and Dense MLP Block

Sound to Visual Scene Generation by Audio-to-Visual Latent Alignment

Hindi as a Second Language: Improving Visually Grounded Speech with Semantically Similar Samples

Physics-Driven Diffusion Models for Impact Sound Synthesis from Videos

最近の投稿

最近のコメント

アーカイブ

カテゴリー