Content-aware Masked Image Modeling Transformer for Stereo Image Compression

要約

既存の学習ベースのステレオ画像コーデックは、単一画像コーデックから派生した単純なエントロピー モデルを使用した高度な変換を採用して、潜在表現をエンコードします。
ただし、これらのエントロピー モデルは、ステレオ画像に固有の空間視差特性を効果的に捕捉するのが難しく、レート歪みの結果が最適化されていません。
この論文では、CAMSIC と呼ばれるステレオ画像圧縮フレームワークを提案します。
CAMSIC は、各画像を独立して潜在表現に変換し、新しいコンテンツアウェア マスク イメージ モデリング (MIM) 技術を導入することで、デコーダ不要の強力な Transformer エントロピー モデルを使用して空間依存性と視差依存性の両方をキャプチャします。
当社のコンテンツ認識 MIM は、以前の情報と推定されたトークンの間の効率的な双方向対話を促進し、当然、追加の Transformer デコーダーの必要性を排除します。
実験の結果、当社のステレオ画像コーデックは、Cityscapes と InStereo2K という 2 つのステレオ画像データセットに対して、高速なエンコードおよびデコード速度で最先端のレート ディストーション パフォーマンスを達成できることがわかりました。

要約(オリジナル)

Existing learning-based stereo image codec adopt sophisticated transformation with simple entropy models derived from single image codecs to encode latent representations. However, those entropy models struggle to effectively capture the spatial-disparity characteristics inherent in stereo images, which leads to suboptimal rate-distortion results. In this paper, we propose a stereo image compression framework, named CAMSIC. CAMSIC independently transforms each image to latent representation and employs a powerful decoder-free Transformer entropy model to capture both spatial and disparity dependencies, by introducing a novel content-aware masked image modeling (MIM) technique. Our content-aware MIM facilitates efficient bidirectional interaction between prior information and estimated tokens, which naturally obviates the need for an extra Transformer decoder. Experiments show that our stereo image codec achieves state-of-the-art rate-distortion performance on two stereo image datasets Cityscapes and InStereo2K with fast encoding and decoding speed.

arxiv情報

著者 Xinjie Zhang,Shenyuan Gao,Zhening Liu,Xingtong Ge,Dailan He,Tongda Xu,Yan Wang,Jun Zhang
発行日 2024-03-13 13:12:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.MM, eess.IV パーマリンク