Neural Distributed Image Compression with Cross-Attention Feature Alignment

要約

情報理論における分散ソース符号化問題の特殊例として、相関のあるものがデコーダ側でのみサイド情報として利用できる場合の情報ソースの圧縮問題を考察する。具体的には、相関のある画像源として、視野が重複し、同期・校正された一対のカメラで撮影された一対のステレオ画像を考える。従来提案されている手法では、エンコーダが入力画像をディープニューラルネットワークを用いて潜像表現に変換し、量子化された潜像表現をエントロピー符号化により可逆圧縮する。デコーダは、エントロピー符号化された量子化潜在表現を復号し、この表現と利用可能なサイド情報を用いて入力画像を再構成する。提案手法では、復号器は受信した入力画像の潜像表現と側面情報の潜像表現から得られる特徴マップの位置合わせを行うために、交差注目モジュールを用いる。特徴マップの相関パッチを位置合わせすることで、側面情報をより有効に活用することができると主張する。我々は,ステレオ画像ペアのデータセットであるKITTIとCityscapeを用いて,提案アルゴリズムの競争力を実証する.その結果,提案アーキテクチャは,従来と比較して,デコーダのみの側面情報をより効率的に利用できることが示された.

要約(オリジナル)

We consider the problem of compressing an information source when a correlated one is available as side information only at the decoder side, which is a special case of the distributed source coding problem in information theory. In particular, we consider a pair of stereo images, which have overlapping fields of view, and are captured by a synchronized and calibrated pair of cameras as correlated image sources. In previously proposed methods, the encoder transforms the input image to a latent representation using a deep neural network, and compresses the quantized latent representation losslessly using entropy coding. The decoder decodes the entropy-coded quantized latent representation, and reconstructs the input image using this representation and the available side information. In the proposed method, the decoder employs a cross-attention module to align the feature maps obtained from the received latent representation of the input image and a latent representation of the side information. We argue that aligning the correlated patches in the feature maps allows better utilization of the side information. We empirically demonstrate the competitiveness of the proposed algorithm on KITTI and Cityscape datasets of stereo image pairs. Our experimental results show that the proposed architecture is able to exploit the decoder-only side information in a more efficient manner compared to previous works.

arxiv情報

著者 Nitish Mital,Ezgi Ozyilkan,Ali Garjani,Deniz Gunduz
発行日 2023-01-05 10:19:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, eess.IV パーマリンク