FFCA-Net: Stereo Image Compression via Fast Cascade Alignment of Side Information

要約

マルチビュー圧縮技術、特にステレオ画像圧縮 (SIC) は、車載カメラや 3D 関連アプリケーションで重要な役割を果たします。
興味深いことに、分散ソース コーディング (DSC) 理論は、相関ソースの効率的なデータ圧縮が、独立したエンコーディングと共同デコーディングを通じて達成できることを示唆しています。
これが、近年急速に開発された深層分散 SIC 手法の動機となっています。
ただし、これらのアプローチでは、ステレオ イメージング タスクの固有の特性が無視され、長いデコード遅延が発生します。
この制限に対処するために、デコーダのサイド情報を最大限に活用する機能ベースの高速カスケード アライメント ネットワーク (FFCA-Net) を提案します。
FFCA は、粗いものから細かいものへのカスケード型アライメント アプローチを採用しています。
初期段階では、FFCA はステレオ事前分布に基づいた特徴領域パッチマッチング モジュールを利用します。
このモジュールは、自明なマッチング方法の検索空間の冗長性を削減し、ノイズの導入をさらに軽減します。
次の段階では、砂時計ベースのスパース ステレオ リファインメント ネットワークを利用して、計算コストを削減しながら画像間の特徴をさらに調整します。
さらに、整列された特徴をデコードするために、高速特徴融合ネットワーク (FFF) と呼ばれる、軽量でありながら高性能の特徴融合ネットワークを考案しました。
InStereo2K、KITTI、Cityscapes データセットの実験結果は、従来の学習ベースの SIC 手法と比較して、私たちのアプローチが大幅に優れていることを示しています。
特に、私たちのアプローチは、他の方法よりも 3 ~ 10 倍速いデコード速度という点で大幅な向上を達成します。

要約(オリジナル)

Multi-view compression technology, especially Stereo Image Compression (SIC), plays a crucial role in car-mounted cameras and 3D-related applications. Interestingly, the Distributed Source Coding (DSC) theory suggests that efficient data compression of correlated sources can be achieved through independent encoding and joint decoding. This motivates the rapidly developed deep-distributed SIC methods in recent years. However, these approaches neglect the unique characteristics of stereo-imaging tasks and incur high decoding latency. To address this limitation, we propose a Feature-based Fast Cascade Alignment network (FFCA-Net) to fully leverage the side information on the decoder. FFCA adopts a coarse-to-fine cascaded alignment approach. In the initial stage, FFCA utilizes a feature domain patch-matching module based on stereo priors. This module reduces redundancy in the search space of trivial matching methods and further mitigates the introduction of noise. In the subsequent stage, we utilize an hourglass-based sparse stereo refinement network to further align inter-image features with a reduced computational cost. Furthermore, we have devised a lightweight yet high-performance feature fusion network, called a Fast Feature Fusion network (FFF), to decode the aligned features. Experimental results on InStereo2K, KITTI, and Cityscapes datasets demonstrate the significant superiority of our approach over traditional and learning-based SIC methods. In particular, our approach achieves significant gains in terms of 3 to 10-fold faster decoding speed than other methods.

arxiv情報

著者 Yichong Xia,Yujun Huang,Bin Chen,Haoqian Wang,Yaowei Wang
発行日 2023-12-29 08:51:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク