Gemino: Practical and Robust Neural Compression for Video Conferencing

要約

タイトル:「Gemino:ビデオ会議のための実用的かつ堅牢なニューラル圧縮」

要約:

– ビデオ会議システムは、現在のビデオコーデックでは極低ビットレートでの動作が不可能なため、ネットワーク状況が悪化するとユーザーエクスペリエンスに悪影響が出ます。
– 近年、各フレームの疎な表現(顔のランドマーク情報など)を使用して極低ビットレートで話者のビデオを再構築するいくつかのニューラル代替案が提案されています。
– しかし、これらのアプローチは、通話の間に大きな動きや隠蔽がある場合には低品質の再構成を生み出し、また高解像度にはスケーリングできません。
– 私たちは、新しいニューラル圧縮システム「Gemino」を設計しました。Geminoは、高周波条件付きスーパーレゾリューションパイプラインに基づくビデオ会議用の新しいニューラル圧縮システムです。
– Geminoは、1つの高解像度参照画像から抽出された情報に基づいて、非常に低解像度のターゲットフレームをアップサンプリングしながら、高周波数の詳細(肌のテクスチャ、髪の毛など)を強調します。
– 私たちは、複数スケールアーキテクチャを使用して、モデルの異なるコンポーネントを異なる解像度で実行し、720pに匹敵する解像度までスケーリングできるようにしました。
– 私たちは、aiortcの上にGeminoを実装し、Titan X GPUでリアルタイムに1024×1024のビデオを処理し、同様の知覚品質のための従来のビデオコーデックよりも2.2〜5倍低いビットレートを実現することを示しました。

要約(オリジナル)

Video conferencing systems suffer from poor user experience when network conditions deteriorate because current video codecs simply cannot operate at extremely low bitrates. Recently, several neural alternatives have been proposed that reconstruct talking head videos at very low bitrates using sparse representations of each frame such as facial landmark information. However, these approaches produce poor reconstructions in scenarios with major movement or occlusions over the course of a call, and do not scale to higher resolutions. We design Gemino, a new neural compression system for video conferencing based on a novel high-frequency-conditional super-resolution pipeline. Gemino upsamples a very low-resolution version of each target frame while enhancing high-frequency details (e.g., skin texture, hair, etc.) based on information extracted from a single high-resolution reference image. We use a multi-scale architecture that runs different components of the model at different resolutions, allowing it to scale to resolutions comparable to 720p, and we personalize the model to learn specific details of each person, achieving much better fidelity at low bitrates. We implement Gemino atop aiortc, an open-source Python implementation of WebRTC, and show that it operates on 1024×1024 videos in real-time on a Titan X GPU, and achieves 2.2-5x lower bitrate than traditional video codecs for the same perceptual quality.

arxiv情報

著者 Vibhaalakshmi Sivaraman,Pantea Karimi,Vedantha Venkatapathy,Mehrdad Khani,Sadjad Fouladi,Mohammad Alizadeh,Frédo Durand,Vivienne Sze
発行日 2023-05-11 14:24:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV, cs.NI パーマリンク