A Deep Single Image Rectification Approach for Pan-Tilt-Zoom Cameras

要約

広角レンズを備えたパンチルトズーム(PTZ)カメラは、監視に広く使用されていますが、それが固有の非線形歪みのために画像修正が必要です。
現在の深い学習アプローチは、通常、細粒の幾何学的な詳細を維持するのに苦労しており、その結果、不正確な修正が生じます。
このペーパーでは、広角画像修正のための新しいフレームワークである順方向の歪みと逆方向のワーピングネットワーク(FDBW-NET)を紹介します。
順方向の歪みモデルを使用してバレルが付随する画像を合成し、ピクセルの冗長性を減らし、ぼやけを防ぎます。
ネットワークは、注意メカニズムを備えたピラミッドコンテキストエンコーダーを採用して、幾何学的な詳細を含む逆方向の反り流を生成します。
次に、マルチスケールデコーダーを使用して、歪んだ機能と出力修正画像を復元します。
FDBW-NETのパフォーマンスは、パブリックベンチマーク、AirsimレンダリングPTZカメラ画像、および実際のPTZカメラデータセットの多様なデータセットで検証されています。
FDBW-NETが歪みの整流においてSOTAパフォーマンスを達成し、実用的な視覚的アプリケーションのPTZカメラの適応性を高めることを示しています。

要約(オリジナル)

Pan-Tilt-Zoom (PTZ) cameras with wide-angle lenses are widely used in surveillance but often require image rectification due to their inherent nonlinear distortions. Current deep learning approaches typically struggle to maintain fine-grained geometric details, resulting in inaccurate rectification. This paper presents a Forward Distortion and Backward Warping Network (FDBW-Net), a novel framework for wide-angle image rectification. It begins by using a forward distortion model to synthesize barrel-distorted images, reducing pixel redundancy and preventing blur. The network employs a pyramid context encoder with attention mechanisms to generate backward warping flows containing geometric details. Then, a multi-scale decoder is used to restore distorted features and output rectified images. FDBW-Net’s performance is validated on diverse datasets: public benchmarks, AirSim-rendered PTZ camera imagery, and real-scene PTZ camera datasets. It demonstrates that FDBW-Net achieves SOTA performance in distortion rectification, boosting the adaptability of PTZ cameras for practical visual applications.

arxiv情報

著者 Teng Xiao,Qi Hu,Qingsong Yan,Wei Liu,Zhiwei Ye,Fei Deng
発行日 2025-04-09 15:19:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク