要約
タイトル:最適化を用いたビット割り当て
要約:この論文では、ニューラルビデオ圧縮(NVC)におけるビット割り当ての問題を考察する。まず、SAVI(準備金計算動学法)とNVCにおけるビット割り当ての間に基本的な関係があることを明らかにする。具体的には、GoP(Group-of-Picture)レベルの尤度を持つSAVIが、正確なレート&品質依存性モデルを持つピクセルレベルのビット割り当てと等価であることを示す。この同等性に基づいて、SAVIを用いたビット割り当ての新たなパラダイムを確立する。私たちのアプローチは、従来のビット割り当て法とは異なり、経験的なモデルが必要なく最適である。さらに、グラディエントアセントを使用した元のSAVIは単一レベルの潜在的なものにしか適用されず、NVCなどの多レベルに拡張するためには、再帰的にグラディエントアセントを通じて逆伝播を適用する。最後に、実際の実装に対する扱いやすい近似値を提案する。私たちの方法は、エンコード速度より性能が重視されるシナリオに適用でき、ビット割り当てのR-Dパフォーマンスに対する経験的なバウンドとして機能する。実験結果は、現在の最先端のビット割り当てアルゴリズムに比べて、私たちのアルゴリズムには約0.5 dB PSNRの余地があることを示しており、コードは次のURLから入手可能です:https://github.com/tongdaxu/Bit-Allocation-Using-Optimization。
要約(オリジナル)
In this paper, we consider the problem of bit allocation in Neural Video Compression (NVC). First, we reveal a fundamental relationship between bit allocation in NVC and Semi-Amortized Variational Inference (SAVI). Specifically, we show that SAVI with GoP (Group-of-Picture)-level likelihood is equivalent to pixel-level bit allocation with precise rate \& quality dependency model. Based on this equivalence, we establish a new paradigm of bit allocation using SAVI. Different from previous bit allocation methods, our approach requires no empirical model and is thus optimal. Moreover, as the original SAVI using gradient ascent only applies to single-level latent, we extend the SAVI to multi-level such as NVC by recursively applying back-propagating through gradient ascent. Finally, we propose a tractable approximation for practical implementation. Our method can be applied to scenarios where performance outweights encoding speed, and serves as an empirical bound on the R-D performance of bit allocation. Experimental results show that current state-of-the-art bit allocation algorithms still have a room of $\approx 0.5$ dB PSNR to improve compared with ours. Code is available at \url{https://github.com/tongdaxu/Bit-Allocation-Using-Optimization}.
arxiv情報
著者 | Tongda Xu,Han Gao,Chenjian Gao,Yuanyuan Wang,Dailan He,Jinyong Pi,Jixiang Luo,Ziyu Zhu,Mao Ye,Hongwei Qin,Yan Wang,Jingjing Liu,Ya-Qin Zhang |
発行日 | 2023-04-25 05:41:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI