eess.AS」カテゴリーアーカイブ

Towards Unconstrained Audio Splicing Detection and Localization with Neural Networks

要約 タイトル:ニューラルネットワークを用いた自由な音声スプライスの検出と位置特 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.SD, eess.AS | Towards Unconstrained Audio Splicing Detection and Localization with Neural Networks はコメントを受け付けていません

An efficient encoder-decoder architecture with top-down attention for speech separation

要約 タイトル: 階層的アテンションを用いた効率的なエンコーダーデコーダーアーキ … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | An efficient encoder-decoder architecture with top-down attention for speech separation はコメントを受け付けていません

Paraformer: Fast and Accurate Parallel Transformer for Non-autoregressive End-to-End Speech Recognition

要約 変圧器は最近、ASR 分野を支配しています。 優れたパフォーマンスを実現で … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Paraformer: Fast and Accurate Parallel Transformer for Non-autoregressive End-to-End Speech Recognition はコメントを受け付けていません

WavCaps: A ChatGPT-Assisted Weakly-Labelled Audio Captioning Dataset for Audio-Language Multimodal Research

要約 オーディオ言語 (AL) マルチモーダル学習タスクの進歩は、近年重要です。 … 続きを読む

カテゴリー: cs.CL, cs.MM, cs.SD, eess.AS | WavCaps: A ChatGPT-Assisted Weakly-Labelled Audio Captioning Dataset for Audio-Language Multimodal Research はコメントを受け付けていません

SynthVSR: Scaling Up Visual Speech Recognition With Synthetic Supervision

要約 最近報告された視覚的音声認識 (VSR) の最先端の結果は、ますます大量の … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.SD, eess.AS | SynthVSR: Scaling Up Visual Speech Recognition With Synthetic Supervision はコメントを受け付けていません

Effective Audio Classification Network Based on Paired Inverse Pyramid Structure and Dense MLP Block

要約 最近では、畳み込みニューラル ネットワーク (CNN) と自己注意メカニズ … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Effective Audio Classification Network Based on Paired Inverse Pyramid Structure and Dense MLP Block はコメントを受け付けていません

Sound to Visual Scene Generation by Audio-to-Visual Latent Alignment

要約 オーディオは私たちの周りの世界をどのように説明しますか? 本論文では,音か … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS, eess.IV | Sound to Visual Scene Generation by Audio-to-Visual Latent Alignment はコメントを受け付けていません

Hindi as a Second Language: Improving Visually Grounded Speech with Semantically Similar Samples

要約 この作業の目的は、多言語の観点から視覚的に接地された音声モデル (VGS) … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.SD, eess.AS | Hindi as a Second Language: Improving Visually Grounded Speech with Semantically Similar Samples はコメントを受け付けていません

Context-aware Fine-tuning of Self-supervised Speech Models

要約 自己監視型の事前トレーニング済みトランスフォーマーは、さまざまな音声タスク … 続きを読む

カテゴリー: cs.CL, eess.AS | Context-aware Fine-tuning of Self-supervised Speech Models はコメントを受け付けていません

Physics-Driven Diffusion Models for Impact Sound Synthesis from Videos

要約 物理的なオブジェクトの相互作用から発せられる音をモデリングすることは、現実 … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS | Physics-Driven Diffusion Models for Impact Sound Synthesis from Videos はコメントを受け付けていません