Towards Real-Time Neural Video Codec for Cross-Platform Application Using Calibration Information

要約

最先端のニューラル ビデオ コーデックは、場合によっては、RD パフォーマンスの点で最も洗練された従来のコーデックを上回っています。
しかし、これらを実際のアプリケーションに利用することは、2 つの主な理由により依然として困難です。
1) 浮動小数点演算に起因するクロスプラットフォームの計算エラーにより、ビットストリームが不正確にデコードされる可能性があります。
2) エンコードおよびデコード プロセスの計算の複雑さは、リアルタイム パフォーマンスの達成に課題をもたらします。
この論文では、民生用 GPU で他のエンコード プラットフォームからの 720P ビデオ ビットストリームを効率的にデコードできる、リアルタイム クロスプラットフォーム ニューラル ビデオ コーデックを提案します。
まず、プラットフォーム間での浮動小数点計算の不確実性によって引き起こされるコーデックの不一致の問題を解決するために、符号化段階と復号化段階の間でエントロピー パラメーターの一貫した量子化を保証するキャリブレーション送信システムを設計します。
エンコードとデコードの間で境界を越えた量子化が行われる可能性のあるパラメータはエンコード段階で特定され、その座標は補助送信ビットストリームによって配信されます。
そうすることで、これらの矛盾したパラメータをデコード段階で適切に処理できます。
さらに、補助ビットストリームのビットレートを削減するために、区分的ガウス制約を使用してエントロピー パラメーターの分布を修正します。
次に、リアルタイム ビデオ コーデックのデコード側の計算制限に合わせて、軽量モデルを設計します。
一連の効率化手法により、このモデルは NVIDIA RTX 2080 GPU で 25 FPS のデコード速度を達成できます。
実験結果は、私たちのモデルが別のプラットフォームでエンコードしながら 720P ビデオのリアルタイム デコードを達成できることを示しています。
さらに、リアルタイム モデルでは、アンカー H.265 を使用した PSNR の観点から、BD レートが最大 24.2% 向上します。

要約(オリジナル)

The state-of-the-art neural video codecs have outperformed the most sophisticated traditional codecs in terms of RD performance in certain cases. However, utilizing them for practical applications is still challenging for two major reasons. 1) Cross-platform computational errors resulting from floating point operations can lead to inaccurate decoding of the bitstream. 2) The high computational complexity of the encoding and decoding process poses a challenge in achieving real-time performance. In this paper, we propose a real-time cross-platform neural video codec, which is capable of efficiently decoding of 720P video bitstream from other encoding platforms on a consumer-grade GPU. First, to solve the problem of inconsistency of codec caused by the uncertainty of floating point calculations across platforms, we design a calibration transmitting system to guarantee the consistent quantization of entropy parameters between the encoding and decoding stages. The parameters that may have transboundary quantization between encoding and decoding are identified in the encoding stage, and their coordinates will be delivered by auxiliary transmitted bitstream. By doing so, these inconsistent parameters can be processed properly in the decoding stage. Furthermore, to reduce the bitrate of the auxiliary bitstream, we rectify the distribution of entropy parameters using a piecewise Gaussian constraint. Second, to match the computational limitations on the decoding side for real-time video codec, we design a lightweight model. A series of efficiency techniques enable our model to achieve 25 FPS decoding speed on NVIDIA RTX 2080 GPU. Experimental results demonstrate that our model can achieve real-time decoding of 720P videos while encoding on another platform. Furthermore, the real-time model brings up to a maximum of 24.2\% BD-rate improvement from the perspective of PSNR with the anchor H.265.

arxiv情報

著者 Kuan Tian,Yonghang Guan,Jinxi Xiang,Jun Zhang,Xiao Han,Wei Yang
発行日 2023-09-20 13:01:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク