Region-of-Interest Based Neural Video Compression

要約

人間は、シーンのすべての部分を同じ解像度で認識するのではなく、いくつかの関心領域 (ROI) に注目します。
従来のオブジェクトベースのコーデックは、この生物学的直観を利用して、顕著な領域を優先してビットを不均一に割り当てることができますが、残りの領域の歪みが増加します。このような戦略により、低レートでの知覚品質を向上させることができます。
制約。
最近、ビデオ圧縮用にいくつかのニューラル コーデックが導入されましたが、それらはすべての空間位置で均一に動作し、ROI ベースの処理能力がありません。
このホワイト ペーパーでは、ROI ベースのニューラル ビデオ コーディングの 2 つのモデルを紹介します。
まず、バイナリ ROI マスクが供給され、背景の歪みを強調しないことによってトレーニングされる暗黙的なモデルを提案します。
次に、ROI マスクを条件として、潜在変数のさまざまな空間領域の量子化ビン幅を制御できる、明示的な潜在スケーリング方法を設計します。
広範な実験により、ROI のレート歪み (R-D) パフォーマンスに関して、当社の方法がすべてのベースラインよりも優れていることを示しています。
さらに、推論時にさまざまなデータセットや任意の ROI に一般化できます。
最後に、合成 ROI マスクはパフォーマンスをほとんどまたはまったく低下させることなく使用できるため、トレーニング中に高価なピクセルレベルの注釈を必要としません。
私たちの知る限りでは、私たちの提案は、ROI ベースの機能をニューラル ビデオ圧縮モデルに統合する最初のソリューションです。

要約(オリジナル)

Humans do not perceive all parts of a scene with the same resolution, but rather focus on few regions of interest (ROIs). Traditional Object-Based codecs take advantage of this biological intuition, and are capable of non-uniform allocation of bits in favor of salient regions, at the expense of increased distortion the remaining areas: such a strategy allows a boost in perceptual quality under low rate constraints. Recently, several neural codecs have been introduced for video compression, yet they operate uniformly over all spatial locations, lacking the capability of ROI-based processing. In this paper, we introduce two models for ROI-based neural video coding. First, we propose an implicit model that is fed with a binary ROI mask and it is trained by de-emphasizing the distortion of the background. Secondly, we design an explicit latent scaling method, that allows control over the quantization binwidth for different spatial regions of latent variables, conditioned on the ROI mask. By extensive experiments, we show that our methods outperform all our baselines in terms of Rate-Distortion (R-D) performance in the ROI. Moreover, they can generalize to different datasets and to any arbitrary ROI at inference time. Finally, they do not require expensive pixel-level annotations during training, as synthetic ROI masks can be used with little to no degradation in performance. To the best of our knowledge, our proposals are the first solutions that integrate ROI-based capabilities into neural video compression models.

arxiv情報

著者 Yura Perugachi-Diaz,Guillaume Sautière,Davide Abati,Yang Yang,Amirhossein Habibian,Taco S Cohen
発行日 2022-11-02 15:32:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV パーマリンク