要約
ビデオ スナップショット圧縮イメージング (SCI) の問題について考えます。SCI では、連続した高速フレームが異なるマスクで変調され、1 回の測定でキャプチャされます。
たった 1 回の測定からマルチフレーム画像を再構成する基本原理は、不適切な設定の問題を解決することです。
最適化アルゴリズムとニューラル ネットワークを組み合わせることで、ディープ アンフォールディング ネットワーク (DUN) は逆問題の解決において多大な成果を上げます。
この論文では、私たちが提案するモデルは DUN フレームワークの下にあり、3D の効率的でスケーラブルなアテンション モデルがプラグインされた 3D 畳み込み変換混合 (CTM) モジュールを提案します。これは、時間次元と空間次元の間の相関関係を完全に学習するのに役立ちます。
変成器。
私たちの知る限り、ビデオ SCI 再構築に Transformer が採用されたのはこれが初めてです。
さらに、以前の研究では無視されていた再構成プロセス中の高周波情報をさらに調査するために、ピクセルごとに不確実性を特徴付ける分散推定を導入しました。
広範な実験結果は、私たちが提案した方法が最先端の (SOTA) (以前の SOTA アルゴリズムと比較して PSNR で 1.2dB ゲイン) の結果を達成することを示しています。
コードを公開していきます。
要約(オリジナル)
We consider the problem of video snapshot compressive imaging (SCI), where sequential high-speed frames are modulated by different masks and captured by a single measurement. The underlying principle of reconstructing multi-frame images from only one single measurement is to solve an ill-posed problem. By combining optimization algorithms and neural networks, deep unfolding networks (DUNs) score tremendous achievements in solving inverse problems. In this paper, our proposed model is under the DUN framework and we propose a 3D Convolution-Transformer Mixture (CTM) module with a 3D efficient and scalable attention model plugged in, which helps fully learn the correlation between temporal and spatial dimensions by virtue of Transformer. To our best knowledge, this is the first time that Transformer is employed to video SCI reconstruction. Besides, to further investigate the high-frequency information during the reconstruction process which are neglected in previous studies, we introduce variance estimation characterizing the uncertainty on a pixel-by-pixel basis. Extensive experimental results demonstrate that our proposed method achieves state-of-the-art (SOTA) (with a 1.2dB gain in PSNR over previous SOTA algorithm) results. We will release the code.
arxiv情報
著者 | Siming Zheng,Xin Yuan |
発行日 | 2023-06-20 06:25:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google