NN-VVC: Versatile Video Coding boosted by self-supervisedly learned image coding for machines

要約

最近の人工知能の進歩により、主にニューラル ネットワークなどの機械分析アルゴリズムによる画像やビデオの使用が増え続けています。
それにもかかわらず、メディアの圧縮、保存、送信は伝統的に人間をコンテンツの視聴者として考慮して設計されてきました。
機械分析のための画像およびビデオのコーディングに関する最近の研究は、主に 2 つのほぼ直交する方向で進歩しています。
1 つ目は、エンドツーエンド (E2E) 学習コーデックに代表されます。これは、画像コーディングで高いパフォーマンスを提供しますが、最先端の従来のビデオ コーデックとまだ同等ではなく、相互運用性に欠けています。
2 番目の方向では、Versatile Videocoding (VVC) 標準またはその他の従来のビデオ コーデック (CVC) を、機械分析を対象とした前処理および後処理操作とともに使用することを検討します。
CVC ベースの方法は、相互運用性と広範なハードウェアおよびソフトウェアのサポートの恩恵を受けますが、マシン タスクのパフォーマンスは、特に低ビットレートでは望ましいレベルよりも低いことがよくあります。
この論文では、NN-VVC と呼ばれるマシン用ハイブリッド コーデックを提案します。これは、E2E で学習された画像コーデックと CVC の利点を組み合わせて、マシンの画像とビデオの両方のコーディングで高いパフォーマンスを実現します。
私たちの実験によると、提案されたシステムは、複数の異なるデータセットとマシン ビジョン タスクで評価した場合、画像データとビデオ データの VVC に対して、それぞれ最大 -43.20% と -26.8% の Bjntegaard デルタ レート削減を達成しました。
私たちの知る限り、これは複数のデータセットおよび複数のマシン ビジョン タスクで VVC を上回るハイブリッド ビデオ コーデックを示した最初の研究論文です。

要約(オリジナル)

The recent progress in artificial intelligence has led to an ever-increasing usage of images and videos by machine analysis algorithms, mainly neural networks. Nonetheless, compression, storage and transmission of media have traditionally been designed considering human beings as the viewers of the content. Recent research on image and video coding for machine analysis has progressed mainly in two almost orthogonal directions. The first is represented by end-to-end (E2E) learned codecs which, while offering high performance on image coding, are not yet on par with state-of-the-art conventional video codecs and lack interoperability. The second direction considers using the Versatile Video Coding (VVC) standard or any other conventional video codec (CVC) together with pre- and post-processing operations targeting machine analysis. While the CVC-based methods benefit from interoperability and broad hardware and software support, the machine task performance is often lower than the desired level, particularly in low bitrates. This paper proposes a hybrid codec for machines called NN-VVC, which combines the advantages of an E2E-learned image codec and a CVC to achieve high performance in both image and video coding for machines. Our experiments show that the proposed system achieved up to -43.20% and -26.8% Bj{\o}ntegaard Delta rate reduction over VVC for image and video data, respectively, when evaluated on multiple different datasets and machine vision tasks. To the best of our knowledge, this is the first research paper showing a hybrid video codec that outperforms VVC on multiple datasets and multiple machine vision tasks.

arxiv情報

著者 Jukka I. Ahonen,Nam Le,Honglei Zhang,Antti Hallapuro,Francesco Cricri,Hamed Rezazadegan Tavakoli,Miska M. Hannuksela,Esa Rahtu
発行日 2024-01-19 15:33:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク