要約
ビデオスナップショット・コンプレッション・イメージング(SCI)は、コンピュテーショナル・イメージングの考え方を用いて、複数の連続したビデオフレームを一度の測定で取り込むものである。その基本原理は、高速フレームを異なるマスクで変調し、これらの変調フレームを低速2次元センサ(光学エンコーダと呼ぶ)で撮影した1つの測定値に合計し、必要に応じて高速フレームを再構築するアルゴリズム(ソフトウェアデコーダと呼ぶ)を採用することである。本論文では、ビデオSCIにおける再構成アルゴリズム、すなわち、圧縮された測定値から一連のビデオフレームを復元することを考える。具体的には、空間と時間の両領域における相関を利用するために、Spatial-Temporal transFormer (STFormer)を提案する。STFormerネットワークは、トークン生成ブロックとビデオ再構成ブロックから構成され、これら2つのブロックは一連のSTFormerブロックによって接続されている。各STFormerブロックは空間的な自己注意の枝と時間的な自己注意の枝からなり、これら2つの枝の出力は融合ネットワークによって統合される。シミュレーションと実データの両方に関する広範な結果は、STFormerの最先端の性能を実証しています。コードとモデルは、https://github.com/ucaswangls/STFormer.git で公開されています。
要約(オリジナル)
Video snapshot compressive imaging (SCI) captures multiple sequential video frames by a single measurement using the idea of computational imaging. The underlying principle is to modulate high-speed frames through different masks and these modulated frames are summed to a single measurement captured by a low-speed 2D sensor (dubbed optical encoder); following this, algorithms are employed to reconstruct the desired high-speed frames (dubbed software decoder) if needed. In this paper, we consider the reconstruction algorithm in video SCI, i.e., recovering a series of video frames from a compressed measurement. Specifically, we propose a Spatial-Temporal transFormer (STFormer) to exploit the correlation in both spatial and temporal domains. STFormer network is composed of a token generation block, a video reconstruction block, and these two blocks are connected by a series of STFormer blocks. Each STFormer block consists of a spatial self-attention branch, a temporal self-attention branch and the outputs of these two branches are integrated by a fusion network. Extensive results on both simulated and real data demonstrate the state-of-the-art performance of STFormer. The code and models are publicly available at https://github.com/ucaswangls/STFormer.git
arxiv情報
| 著者 | Lishun Wang,Miao Cao,Yong Zhong,Xin Yuan |
| 発行日 | 2022-09-08 04:56:25+00:00 |
| arxivサイト | arxiv_id(pdf) |