HEAL-SWIN: A Vision Transformer On The Sphere

要約

高解像度の広角魚眼画像は、自動運転などのロボット用途にとってますます重要になっています。
ただし、このデータに対して通常の畳み込みニューラル ネットワークやビジョン トランスフォーマーを使用すると、平面上の長方形のグリッドに投影するときに投影損失と歪み損失が発生するため、問題が発生します。
HEAL-SWIN トランスフォーマーを紹介します。これは、天体物理学と宇宙論で使用される均一性の高い階層的等面積等緯度ピクセル化 (HEALPix) グリッドと階層シフト ウィンドウ (SWIN) トランスフォーマーを組み合わせて、トレーニングが可能な効率的で柔軟なモデルを生成します。
高解像度で歪みのない球状データ。
HEAL-SWIN では、HEALPix グリッドの入れ子構造を使用して SWIN トランスフォーマーのパッチングおよびウィンドウ操作を実行し、ネットワークが最小限の計算オーバーヘッドで球面表現を処理できるようにします。
セマンティック セグメンテーション、深度回帰、分類タスクについて、合成および実際の自動車データセットの両方、およびその他の画像データセットの選択において、モデルの優れたパフォーマンスを実証します。
私たちのコードは https://github.com/JanEGerken/HEAL-SWIN で公開されています。

要約(オリジナル)

High-resolution wide-angle fisheye images are becoming more and more important for robotics applications such as autonomous driving. However, using ordinary convolutional neural networks or vision transformers on this data is problematic due to projection and distortion losses introduced when projecting to a rectangular grid on the plane. We introduce the HEAL-SWIN transformer, which combines the highly uniform Hierarchical Equal Area iso-Latitude Pixelation (HEALPix) grid used in astrophysics and cosmology with the Hierarchical Shifted-Window (SWIN) transformer to yield an efficient and flexible model capable of training on high-resolution, distortion-free spherical data. In HEAL-SWIN, the nested structure of the HEALPix grid is used to perform the patching and windowing operations of the SWIN transformer, enabling the network to process spherical representations with minimal computational overhead. We demonstrate the superior performance of our model on both synthetic and real automotive datasets, as well as a selection of other image datasets, for semantic segmentation, depth regression and classification tasks. Our code is publicly available at https://github.com/JanEGerken/HEAL-SWIN.

arxiv情報

著者 Oscar Carlsson,Jan E. Gerken,Hampus Linander,Heiner Spieß,Fredrik Ohlsson,Christoffer Petersson,Daniel Persson
発行日 2024-05-08 15:49:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク