Object Segmentation-Assisted Inter Prediction for Versatile Video Coding

要約

最新のビデオ符号化標準では、高い圧縮効率をもたらすブロックベースのインター予測が広く採用されています。
ただし、自然ビデオでは通常、任意の形状の複数の移動オブジェクトが存在するため、コンパクトに表現することが困難な複雑なモーション フィールドが生じます。
この問題は、Versatile Videocoding (VVC) 標準のより柔軟なブロック分割方法によって解決されていますが、より柔軟な分割には信号を送信するためにより多くのオーバーヘッド ビットが必要であり、依然として任意の形状にすることはできません。
この制限に対処するために、我々はオブジェクトセグメンテーション支援インター予測法(SAIP)を提案します。この方法では、参照フレーム内のオブジェクトがいくつかの高度なテクノロジーによってセグメント化されます。
適切な指示があれば、オブジェクト セグメンテーション マスクは、追加の信号なしで、異なる領域の任意の形状のパーティションとして参照フレームから現在のフレームに変換されます。
セグメンテーションマスクを使用することで、領域ごとに動き補償を行うことで、より高い予測精度を実現します。
セグメンテーション マスクは、さまざまな領域の動きベクトルをより効率的にコード化するためにさらに使用されます。
さらに、異なる領域とパーティションの動きベクトルをより正確に導出するために、動き推定とパーティション推定の統合レート歪み最適化でセグメンテーション マスクが考慮されます。
提案された方法は、VVC リファレンス ソフトウェアである VTM バージョン 12.0 に実装されています。
実験結果は、提案された方法が、低遅延 P、低遅延 B の下で、一般的なテスト シーケンスに対して最大 1.98%、1.14%、0.79%、平均で 0.82%、0.49%、0.37% の BD レート削減を達成することを示しています。
、およびランダム アクセス構成にそれぞれ対応します。

要約(オリジナル)

In modern video coding standards, block-based inter prediction is widely adopted, which brings high compression efficiency. However, in natural videos, there are usually multiple moving objects of arbitrary shapes, resulting in complex motion fields that are difficult to compactly represent. This problem has been tackled by more flexible block partitioning methods in the Versatile Video Coding (VVC) standard, but the more flexible partitions require more overhead bits to signal and still cannot be made arbitrary shaped. To address this limitation, we propose an object segmentation-assisted inter prediction method (SAIP), where objects in the reference frames are segmented by some advanced technologies. With a proper indication, the object segmentation mask is translated from the reference frame to the current frame as the arbitrary-shaped partition of different regions without any extra signal. Using the segmentation mask, motion compensation is separately performed for different regions, achieving higher prediction accuracy. The segmentation mask is further used to code the motion vectors of different regions more efficiently. Moreover, segmentation mask is considered in the joint rate-distortion optimization for motion estimation and partition estimation to derive the motion vector of different regions and partition more accurately. The proposed method is implemented into the VVC reference software, VTM version 12.0. Experimental results show that the proposed method achieves up to 1.98%, 1.14%, 0.79%, and on average 0.82%, 0.49%, 0.37% BD-rate reduction for common test sequences, under the Low-delay P, Low-delay B, and Random Access configurations, respectively.

arxiv情報

著者 Zhuoyuan Li,Zikun Yuan,Li Li,Dong Liu,Xiaohu Tang,Feng Wu
発行日 2024-03-18 11:48:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク