要約
このペーパーでは、今後の入力に依存せずに、ライブ ビデオ ストリームとノイズの多いオーディオ ストリームからクリーンな音声をフレームごとに生成することを目的としています。
この目的を達成するために、我々は、最先端の非因果的視聴覚音声強化モデルである LA-VocE のすべてのコンポーネントを完全に再設計し、因果関係のあるリアルタイム推論を実行する RT-LA-VocE を提案します。
40msの入力フレーム。
私たちは、過去のフレームのみに依存する新しいビジュアルおよびオーディオ エンコーダを考案し、Transformer エンコーダを Emformer に置き換え、新しい因果ニューラル ボコーダ C-HiFi-GAN を設計することによってこれを実現します。
人気のある AVSpeech データセットに関して、私たちのアルゴリズムがすべてのリアルタイム シナリオで最先端の結果を達成することを示します。
さらに重要なのは、フレームあたり 28.15 ミリ秒という低いエンドツーエンド処理遅延を維持しながら、アルゴリズムの遅延を理論上の最小値 (40 ミリ秒) に抑えるように各コンポーネントが慎重に調整されており、最小限の遅延でリアルタイムのフレームごとの強化が可能になります。
。
要約(オリジナル)
In this paper, we aim to generate clean speech frame by frame from a live video stream and a noisy audio stream without relying on future inputs. To this end, we propose RT-LA-VocE, which completely re-designs every component of LA-VocE, a state-of-the-art non-causal audio-visual speech enhancement model, to perform causal real-time inference with a 40ms input frame. We do so by devising new visual and audio encoders that rely solely on past frames, replacing the Transformer encoder with the Emformer, and designing a new causal neural vocoder C-HiFi-GAN. On the popular AVSpeech dataset, we show that our algorithm achieves state-of-the-art results in all real-time scenarios. More importantly, each component is carefully tuned to minimize the algorithm latency to the theoretical minimum (40ms) while maintaining a low end-to-end processing latency of 28.15ms per frame, enabling real-time frame-by-frame enhancement with minimal delay.
arxiv情報
著者 | Honglie Chen,Rodrigo Mira,Stavros Petridis,Maja Pantic |
発行日 | 2024-07-10 16:49:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google