要約
広角レンズは、広い視野を必要とする認識作業によく使用されます。
残念ながら、これらのレンズは大きな歪みを生じるため、歪みの影響を無視した従来のモデルは広角画像に適応できません。
この論文では、広角レンズによって生成される歪みに自動的に適応する新しいトランスベースのモデルを紹介します。
私たちが提案する DarSwin と呼ばれる画像エンコーダ アーキテクチャは、半径方向の歪みプロファイルによって分析的に定義されたレンズの物理的特性を活用しています。
従来のトランスフォーマーベースのアーキテクチャとは対照的に、DarSwin は、放射状パッチ分割、トークン埋め込みを作成するための歪みベースのサンプリング技術、および放射状パッチマージのための角度位置エンコーディングで構成されています。
他のベースラインと比較して、DarSwin は、限界レベルの歪み (非常に低い、低い、中程度、高い) でトレーニングし、分布外の歪みを含むすべてのレベルでテストした場合に、さまざまなデータセットで大幅なゲインを伴って最高の結果を達成します。
基本的な DarSwin アーキテクチャには放射状歪みプロファイルの知識が必要ですが、入力画像自体からそのようなプロファイルを推定する自己校正ネットワークと組み合わせて、完全に校正されていないパイプラインを実現できることを示します。
最後に、DarSwin をピクセルレベルのタスクに適したエンコーダ/デコーダ アーキテクチャに拡張する DarSwin-Unet も紹介します。
私たちは深さ推定におけるパフォーマンスを実証し、DarSwin-Unet がさまざまな広角レンズの目に見えない歪みに対してゼロショット適応を実行できることを広範な実験を通じて示します。
コードとモデルは https://lvsn.github.io/darswin/ で公開されています。
要約(オリジナル)
Wide-angle lenses are commonly used in perception tasks requiring a large field of view. Unfortunately, these lenses produce significant distortions, making conventional models that ignore the distortion effects unable to adapt to wide-angle images. In this paper, we present a novel transformer-based model that automatically adapts to the distortion produced by wide-angle lenses. Our proposed image encoder architecture, dubbed DarSwin, leverages the physical characteristics of such lenses analytically defined by the radial distortion profile. In contrast to conventional transformer-based architectures, DarSwin comprises a radial patch partitioning, a distortion-based sampling technique for creating token embeddings, and an angular position encoding for radial patch merging. Compared to other baselines, DarSwin achieves the best results on different datasets with significant gains when trained on bounded levels of distortions (very low, low, medium, and high) and tested on all, including out-of-distribution distortions. While the base DarSwin architecture requires knowledge of the radial distortion profile, we show it can be combined with a self-calibration network that estimates such a profile from the input image itself, resulting in a completely uncalibrated pipeline. Finally, we also present DarSwin-Unet, which extends DarSwin, to an encoder-decoder architecture suitable for pixel-level tasks. We demonstrate its performance on depth estimation and show through extensive experiments that DarSwin-Unet can perform zero-shot adaptation to unseen distortions of different wide-angle lenses. The code and models are publicly available at https://lvsn.github.io/darswin/
arxiv情報
著者 | Akshaya Athwale,Arman Afrasiyabi,Justin Lagüe,Ichrak Shili,Ola Ahmad,Jean-François Lalonde |
発行日 | 2024-07-24 13:17:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google