要約
広角レンズは、広い視野を必要とする認識作業によく使用されます。
残念ながら、これらのレンズは大きな歪みを生じ、歪みの影響を無視した従来のモデルは広角画像に適応できなくなります。
この論文では、広角レンズによって生成される歪みに自動的に適応する新しいトランスベースのモデルを紹介します。
私たちは、ラジアル歪みプロファイル (既知であると仮定) によって分析的に定義されるこのようなレンズの物理的特性を利用して、歪みを認識したラジアル swin トランス (DarSwin) を開発します。
従来のトランスフォーマーベースのアーキテクチャとは対照的に、DarSwin は、放射状パッチ分割、トークン埋め込みを作成するための歪みベースのサンプリング技術、および放射状パッチマージのための角度位置エンコーディングで構成されています。
私たちは、合成的に歪んだ ImageNet データを使用して分類タスクに関する手法を検証し、広角レンズの目に見えない歪みに対して DarSwin がゼロショット適応を実行できることを広範な実験を通じて示しました。
他のベースラインと比較して、DarSwin は、限界レベルの歪み (超低、低、中、高) でトレーニングし、範囲外を含むすべてでテストした場合、大幅な向上を伴って最良の結果 (トップ 1 の精度の点で) を達成します。
分布の歪み。
コードとモデルは https://lvsn.github.io/darswin/ で公開されています。
要約(オリジナル)
Wide-angle lenses are commonly used in perception tasks requiring a large field of view. Unfortunately, these lenses produce significant distortions making conventional models that ignore the distortion effects unable to adapt to wide-angle images. In this paper, we present a novel transformer-based model that automatically adapts to the distortion produced by wide-angle lenses. We leverage the physical characteristics of such lenses, which are analytically defined by the radial distortion profile (assumed to be known), to develop a distortion aware radial swin transformer (DarSwin). In contrast to conventional transformer-based architectures, DarSwin comprises a radial patch partitioning, a distortion-based sampling technique for creating token embeddings, and an angular position encoding for radial patch merging. We validate our method on classification tasks using synthetically distorted ImageNet data and show through extensive experiments that DarSwin can perform zero-shot adaptation to unseen distortions of different wide-angle lenses. Compared to other baselines, DarSwin achieves the best results (in terms of Top-1 accuracy) with significant gains when trained on bounded levels of distortions (very-low, low, medium, and high) and tested on all including out-of-distribution distortions. The code and models are publicly available at https://lvsn.github.io/darswin/
arxiv情報
著者 | Akshaya Athwale,Arman Afrasiyabi,Justin Lague,Ichrak Shili,Ola Ahmad,Jean-Francois Lalonde |
発行日 | 2023-08-18 17:17:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google