要約
ローリングシャッター(RS)画像は、露光時間内に(仮想)移動するGSカメラによって撮影されたグローバルシャッター(GS)画像の列方向の組み合わせとみなすことができる。RSカメラは広く利用されているが、RS効果は特に高速なカメラ移動がある場合に明らかな画像歪みを引き起こし、下流のコンピュータビジョンタスクの妨げとなる。本論文では、RS映像の撮影メカニズムを逆転させること、すなわち、時間的に連続した2つのRSフレームから連続した高フレームレートのGS映像を復元することを提案する。このタスクをRSSR(RS temporal Super-resolution)問題と呼ぶ。RSSRは非常に困難なタスクであり、我々の知る限り、今日まで実用的な解決策は存在しない。本論文では、ディープラーニングに基づく新しい解決策を提示する。RSイメージングプロセスの多視点ジオメトリ関係を活用することで、我々の学習ベースのフレームワークは、高フレームレートのGS生成を成功させる。具体的には、3つの新しい貢献が確認できる。(i) 等速・等加速度運動モデルにおける双方向RS歪み補正フローの新規な定式化。(ii) RS undistortionフローと通常のオプティカルフローの橋渡しをするシンプルな線形スケーリング操作.(iii) 異なるスキャンラインに対応する様々なRS歪み補正フロー間の新しい相互変換スキーム。本手法はまた、ディープラーニングの枠組みの中で、空間的・時間的な幾何学的関係を利用し、必要な中間走査線GS画像以外の追加の監視は必要ない。これらの貢献により、我々は、たった2つのRSフレームから高フレームレートのGS動画を復元することができる、非常に最初のローリングシャッター時間超解像ディープネットワークを表している。合成データおよび実データを用いた広範な実験により、提案手法はディテールに富んだ高品質な映像シーケンスを生成でき、最先端の手法を凌駕していることが示された。
要約(オリジナル)
A single rolling-shutter (RS) image may be viewed as a row-wise combination of a sequence of global-shutter (GS) images captured by a (virtual) moving GS camera within the exposure duration. Although RS cameras are widely used, the RS effect causes obvious image distortion especially in the presence of fast camera motion, hindering downstream computer vision tasks. In this paper, we propose to invert the RS image capture mechanism, i.e., recovering a continuous high framerate GS video from two time-consecutive RS frames. We call this task the RS temporal super-resolution (RSSR) problem. The RSSR is a very challenging task, and to our knowledge, no practical solution exists to date. This paper presents a novel deep-learning based solution. By leveraging the multi-view geometry relationship of the RS imaging process, our learning-based framework successfully achieves high framerate GS generation. Specifically, three novel contributions can be identified: (i) novel formulations for bidirectional RS undistortion flows under constant velocity as well as constant acceleration motion model. (ii) a simple linear scaling operation, which bridges the RS undistortion flow and regular optical flow. (iii) a new mutual conversion scheme between varying RS undistortion flows that correspond to different scanlines. Our method also exploits the underlying spatial-temporal geometric relationships within a deep learning framework, where no additional supervision is required beyond the necessary middle-scanline GS image. Building upon these contributions, we represent the very first rolling-shutter temporal super-resolution deep-network that is able to recover high framerate GS videos from just two RS frames. Extensive experimental results on both synthetic and real data show that our proposed method can produce high-quality GS image sequences with rich details, outperforming the state-of-the-art methods.
arxiv情報
著者 | Bin Fan,Yuchao Dai,Hongdong Li |
発行日 | 2022-10-06 16:47:12+00:00 |
arxivサイト | arxiv_id(pdf) |