要約
広角レンズを備えたパンチルトズーム(PTZ)カメラは、監視に広く使用されていますが、それが固有の非線形歪みのために画像修正が必要です。
現在の深い学習アプローチは、通常、細粒の幾何学的な詳細を維持するのに苦労しており、その結果、不正確な修正が生じます。
このペーパーでは、広角画像修正のための新しいフレームワークである順方向の歪みと逆方向のワーピングネットワーク(FDBW-NET)を紹介します。
順方向の歪みモデルを使用してバレルが付随する画像を合成し、ピクセルの冗長性を減らし、ぼやけを防ぎます。
ネットワークは、注意メカニズムを備えたピラミッドコンテキストエンコーダーを採用して、幾何学的な詳細を含む逆方向の反り流を生成します。
次に、マルチスケールデコーダーを使用して、歪んだ機能と出力修正画像を復元します。
FDBW-NETのパフォーマンスは、パブリックベンチマーク、AirsimレンダリングPTZカメラ画像、および実際のPTZカメラデータセットの多様なデータセットで検証されています。
FDBW-NETが歪みの整流においてSOTAパフォーマンスを達成し、実用的な視覚的アプリケーションのPTZカメラの適応性を高めることを示しています。
要約(オリジナル)
Pan-Tilt-Zoom (PTZ) cameras with wide-angle lenses are widely used in surveillance but often require image rectification due to their inherent nonlinear distortions. Current deep learning approaches typically struggle to maintain fine-grained geometric details, resulting in inaccurate rectification. This paper presents a Forward Distortion and Backward Warping Network (FDBW-Net), a novel framework for wide-angle image rectification. It begins by using a forward distortion model to synthesize barrel-distorted images, reducing pixel redundancy and preventing blur. The network employs a pyramid context encoder with attention mechanisms to generate backward warping flows containing geometric details. Then, a multi-scale decoder is used to restore distorted features and output rectified images. FDBW-Net’s performance is validated on diverse datasets: public benchmarks, AirSim-rendered PTZ camera imagery, and real-scene PTZ camera datasets. It demonstrates that FDBW-Net achieves SOTA performance in distortion rectification, boosting the adaptability of PTZ cameras for practical visual applications.
arxiv情報
著者 | Teng Xiao,Qi Hu,Qingsong Yan,Wei Liu,Zhiwei Ye,Fei Deng |
発行日 | 2025-04-09 15:19:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google