RT-LA-VocE: Real-Time Low-SNR Audio-Visual Speech Enhancement

要約

このペーパーでは、今後の入力に依存せずに、ライブビデオストリームとノイズの多いオーディオストリームからクリーンな音声をフレームごとに生成することを目的としています。
この目的を達成するために、我々は、最先端の非因果的視聴覚音声強化モデルである LA-VocE のすべてのコンポーネントを完全に再設計し、因果関係のあるリアルタイム推論を実行する RT-LA-VocE を提案します。
40msの入力フレーム。
私たちは、過去のフレームのみに依存する新しいビジュアルおよびオーディオエンコーダを考案し、Transformer エンコーダを Emformer に置き換え、新しい因果ニューラルボコーダ C-HiFi-GAN を設計することによってこれを実現します。
人気のある AVSpeech データセットに関して、私たちのアルゴリズムがすべてのリアルタイムシナリオで最先端の結果を達成することを示します。
さらに重要なのは、フレームあたり 28.15 ミリ秒という低いエンドツーエンド処理遅延を維持しながら、アルゴリズムの遅延を理論上の最小値 (40 ミリ秒) に抑えるように各コンポーネントが慎重に調整されており、最小限の遅延でリアルタイムのフレームごとの強化が可能になります。
。

要約(オリジナル)

In this paper, we aim to generate clean speech frame by frame from a live video stream and a noisy audio stream without relying on future inputs. To this end, we propose RT-LA-VocE, which completely re-designs every component of LA-VocE, a state-of-the-art non-causal audio-visual speech enhancement model, to perform causal real-time inference with a 40ms input frame. We do so by devising new visual and audio encoders that rely solely on past frames, replacing the Transformer encoder with the Emformer, and designing a new causal neural vocoder C-HiFi-GAN. On the popular AVSpeech dataset, we show that our algorithm achieves state-of-the-art results in all real-time scenarios. More importantly, each component is carefully tuned to minimize the algorithm latency to the theoretical minimum (40ms) while maintaining a low end-to-end processing latency of 28.15ms per frame, enabling real-time frame-by-frame enhancement with minimal delay.

arxiv情報

著者	Honglie Chen,Rodrigo Mira,Stavros Petridis,Maja Pantic
発行日	2024-07-10 16:49:23+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

RT-LA-VocE: Real-Time Low-SNR Audio-Visual Speech Enhancement

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー