Hybrid Transformer and CNN Attention Network for Stereo Image Super-resolution

要約

タイトル:ステレオ画像の超解像度のためのハイブリッドトランスフォーマとCNNアテンションネットワーク

要約:
– 複数段階の戦略は画像復元タスクに頻繁に使用される。
– トランスフォーマベースの手法は、単一画像の超解像度タスクで高い効率を示しているが、ステレオ超解像度タスクでCNNベースの手法に比べて有意な利点を示していない。
– これは、現在の単一画像超解像度トランスフォーマがプロセス中に補完的なステレオ情報を活用することができないため、また、トランスフォーマのパフォーマンスは典型的には十分なデータに依存しているためであり、一般的なステレオ画像超解像度アルゴリズムには不足しているためです。
– これらの問題に対処するために、ハイブリッドトランスフォーマとCNNアテンションネットワーク(HTCAN)を提案する。
– HTCANは、単一画像向けのトランスフォーマベースのネットワークと、ステレオ情報の融合のためのCNNベースのネットワークを利用する。
– さらに、マルチパッチトレーニング戦略とより大きなウィンドウサイズを採用して、超解像度のためのより多くの入力ピクセルを活性化する。さらに、過学習とデータバイアスを削減するために、データ拡張、データ集約、モデル集約などの他の高度な技術も見直す。
– 最終的に、我々のアプローチは、23.90dBのスコアを獲得し、NTIRE 2023ステレオ画像超解像度チャレンジのトラック1で優勝しました。

要約(オリジナル)

Multi-stage strategies are frequently employed in image restoration tasks. While transformer-based methods have exhibited high efficiency in single-image super-resolution tasks, they have not yet shown significant advantages over CNN-based methods in stereo super-resolution tasks. This can be attributed to two key factors: first, current single-image super-resolution transformers are unable to leverage the complementary stereo information during the process; second, the performance of transformers is typically reliant on sufficient data, which is absent in common stereo-image super-resolution algorithms. To address these issues, we propose a Hybrid Transformer and CNN Attention Network (HTCAN), which utilizes a transformer-based network for single-image enhancement and a CNN-based network for stereo information fusion. Furthermore, we employ a multi-patch training strategy and larger window sizes to activate more input pixels for super-resolution. We also revisit other advanced techniques, such as data augmentation, data ensemble, and model ensemble to reduce overfitting and data bias. Finally, our approach achieved a score of 23.90dB and emerged as the winner in Track 1 of the NTIRE 2023 Stereo Image Super-Resolution Challenge.

arxiv情報

著者 Ming Cheng,Haoyu Ma,Qiufang Ma,Xiaopeng Sun,Weiqi Li,Zhenyu Zhang,Xuhan Sheng,Shijie Zhao,Junlin Li,Li Zhang
発行日 2023-05-09 05:19:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク