Self-supervised Learning of Event-guided Video Frame Interpolation for Rolling Shutter Frames

要約

ほとんどの民生用カメラはローリングシャッター(RS)露光を使用しているため、傾きやゼリー効果などの歪みが生じることが多い。これらのビデオは、帯域幅とフレームレートの制約によってさらに制限される。本論文では、高い時間分解能を提供するイベントカメラの可能性を探る。RSカメラとイベントカメラを組み合わせることで、RS歪みのないグローバルシャッター(GS)高フレームレート映像を復元するフレームワークを提案する。実世界のデータセットが不足しているため、本フレームワークは、変位フィールド(露光中のピクセルの動きの高密度な3次元時空間表現)に基づく自己教師あり戦略を採用する。これにより、RSフレームとGSフレーム間の相互再構成が可能となり、スローモーションの復元が容易になる。RSフレームと変位場を組み合わせてGSフレームを生成し、自己監視のために逆マッピングとRSフレームのワーピングを統合する。4つのデータセットで実験した結果、我々の手法は歪みを除去し、帯域幅の使用量を94%削減し、32倍補間でフレームあたり16ミリ秒を達成した。

要約(オリジナル)

Most consumer cameras use rolling shutter (RS) exposure, which often leads to distortions such as skew and jelly effects. These videos are further limited by bandwidth and frame rate constraints. In this paper, we explore the potential of event cameras, which offer high temporal resolution. We propose a framework to recover global shutter (GS) high-frame-rate videos without RS distortion by combining an RS camera and an event camera. Due to the lack of real-world datasets, our framework adopts a self-supervised strategy based on a displacement field, a dense 3D spatiotemporal representation of pixel motion during exposure. This enables mutual reconstruction between RS and GS frames and facilitates slow-motion recovery. We combine RS frames with the displacement field to generate GS frames, and integrate inverse mapping and RS frame warping for self-supervision. Experiments on four datasets show that our method removes distortion, reduces bandwidth usage by 94 percent, and achieves 16 ms per frame at 32x interpolation.

arxiv情報

著者 Yunfan Lu,Guoqiang Liang,Yiran Shen,Lin Wang
発行日 2025-06-03 11:47:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.RO パーマリンク