要約
近年、学習型ビデオ圧縮(LVC)が低遅延構成で優れた性能を示すようになった。しかし、学習型双方向映像圧縮(LBVC)の性能は、従来の双方向符号化に比べてまだ遅れている。この性能差は主に、特に大きな動きのシーンにおいて、長期的な動き推定と遠距離フレームの予測が不正確であることに起因する。これら2つの重大な問題を解決するために、本論文では新しいLBVCフレームワーク、すなわちL-LBVCを提案する。まず、短期的な動きと長期的な動きの両方を扱うことができる適応的な動き推定モジュールを提案する。具体的には、動きの小さい隣接フレームと非隣接フレームのオプティカルフローを直接推定する。動きの大きい非隣接フレームに対しては、隣接フレーム間の局所フローを再帰的に累積し、長期フローを推定する。次に、動き符号化のビットコストを大幅に削減できる適応的動き予測モジュールを提案する。長期的な動き予測の精度を向上させるために、トレーニング中に観測された動きの範囲に合わせて、テスト中に参照フレームを適応的にダウンサンプリングする。実験によれば、我々のL-LBVCは、ランダムアクセス設定下のいくつかのテストデータセットにおいて、これまでの最先端のLVC手法を大幅に上回り、VVC(VTM)をも上回る。
要約(オリジナル)
Recently, learned video compression (LVC) has shown superior performance under low-delay configuration. However, the performance of learned bi-directional video compression (LBVC) still lags behind traditional bi-directional coding. The performance gap mainly arises from inaccurate long-term motion estimation and prediction of distant frames, especially in large motion scenes. To solve these two critical problems, this paper proposes a novel LBVC framework, namely L-LBVC. Firstly, we propose an adaptive motion estimation module that can handle both short-term and long-term motions. Specifically, we directly estimate the optical flows for adjacent frames and non-adjacent frames with small motions. For non-adjacent frames with large motions, we recursively accumulate local flows between adjacent frames to estimate long-term flows. Secondly, we propose an adaptive motion prediction module that can largely reduce the bit cost for motion coding. To improve the accuracy of long-term motion prediction, we adaptively downsample reference frames during testing to match the motion ranges observed during training. Experiments show that our L-LBVC significantly outperforms previous state-of-the-art LVC methods and even surpasses VVC (VTM) on some test datasets under random access configuration.
arxiv情報
著者 | Yongqi Zhai,Luyang Tang,Wei Jiang,Jiayu Yang,Ronggang Wang |
発行日 | 2025-04-03 13:15:45+00:00 |
arxivサイト | arxiv_id(pdf) |