Blur Interpolation Transformer for Real-World Motion from Blur

要約

この論文では、ジョイントブレ除去および補間またはブレ時間超解像としても知られる、ブレからモーションを回復するという困難な問題について研究しています。
課題は 2 つあります。1) 現在の方法では、合成データセットでも視覚的な品質の点で改善の余地がかなり残っていること、および 2) 実世界のデータへの一般化が不十分であることです。
この目的のために、ぼかしでエンコードされた基本的な時間的相関を効果的に解明するために、ぼかし補間変換器 (BiT) を提案します。
マルチスケールの残差 Swin Transformer ブロックに基づいて、デュアルエンドの時間監視と時間的に対称なアンサンブル戦略を導入して、時変モーション レンダリングの効果的な機能を生成します。
さらに、ハイブリッド カメラ システムを設計して、1 対多のぼやけた鮮明なビデオ ペアの最初の実世界のデータセットを収集します。
実験結果は、BiT が公開データセット Adob​​e240 の最先端の方法よりも大幅に優れていることを示しています。
さらに、提案された実世界のデータセットは、モデルが実際のぼやけたシナリオにうまく一般化するのに効果的に役立ちます。
コードとデータは https://github.com/zzh-tech/BiT で入手できます。

要約(オリジナル)

This paper studies the challenging problem of recovering motion from blur, also known as joint deblurring and interpolation or blur temporal super-resolution. The challenges are twofold: 1) the current methods still leave considerable room for improvement in terms of visual quality even on the synthetic dataset, and 2) poor generalization to real-world data. To this end, we propose a blur interpolation transformer (BiT) to effectively unravel the underlying temporal correlation encoded in blur. Based on multi-scale residual Swin transformer blocks, we introduce dual-end temporal supervision and temporally symmetric ensembling strategies to generate effective features for time-varying motion rendering. In addition, we design a hybrid camera system to collect the first real-world dataset of one-to-many blur-sharp video pairs. Experimental results show that BiT has a significant gain over the state-of-the-art methods on the public dataset Adobe240. Besides, the proposed real-world dataset effectively helps the model generalize well to real blurry scenarios. Code and data are available at https://github.com/zzh-tech/BiT.

arxiv情報

著者 Zhihang Zhong,Mingdeng Cao,Xiang Ji,Yinqiang Zheng,Imari Sato
発行日 2023-03-07 11:00:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク