要約
ほとんどのニューラル圧縮モデルは、目に見えないデータに一般化するために、画像またはビデオの大規模なデータセットでトレーニングされます。
このような一般化には、通常、デコードの複雑さが高く、大規模で表現力豊かなアーキテクチャが必要です。
ここでは、C3 を紹介します。C3 は、強力なレート ディストーション (RD) パフォーマンスを備えたニューラル圧縮方式で、代わりに小さなモデルを各画像またはビデオに個別にオーバーフィットします。
結果として生じる C3 のデコードの複雑さは、同様の RD パフォーマンスを持つニューラル ベースラインよりも 1 桁低い可能性があります。
C3 は COOL-CHIC (Ladune et al.) に基づいて構築されており、画像に対していくつかのシンプルかつ効果的な改善を行っています。
さらに、C3 をビデオに適用するための新しい方法論を開発します。
CLIC2020 画像ベンチマークでは、デコード用の 3,000 MAC/ピクセル未満で、H.266 コーデックのリファレンス実装である VTM の RD パフォーマンスと一致します。
UVG ビデオ ベンチマークでは、デコード用の 5k MAC/ピクセル未満で、定評のあるニューラル ビデオ コーデックである Video Compression Transformer (Mentzer et al.) の RD パフォーマンスに匹敵します。
要約(オリジナル)
Most neural compression models are trained on large datasets of images or videos in order to generalize to unseen data. Such generalization typically requires large and expressive architectures with a high decoding complexity. Here we introduce C3, a neural compression method with strong rate-distortion (RD) performance that instead overfits a small model to each image or video separately. The resulting decoding complexity of C3 can be an order of magnitude lower than neural baselines with similar RD performance. C3 builds on COOL-CHIC (Ladune et al.) and makes several simple and effective improvements for images. We further develop new methodology to apply C3 to videos. On the CLIC2020 image benchmark, we match the RD performance of VTM, the reference implementation of the H.266 codec, with less than 3k MACs/pixel for decoding. On the UVG video benchmark, we match the RD performance of the Video Compression Transformer (Mentzer et al.), a well-established neural video codec, with less than 5k MACs/pixel for decoding.
arxiv情報
著者 | Hyunjik Kim,Matthias Bauer,Lucas Theis,Jonathan Richard Schwarz,Emilien Dupont |
発行日 | 2023-12-05 13:28:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google