DarSwin-Unet: Distortion Aware Encoder-Decoder Architecture

要約

広角魚眼画像は、ロボット工学、セキュリティ、モビリティ (ドローン、航空電子工学など) などのアプリケーションにおける認識タスクでますます一般的になりつつあります。
ただし、現在のモデルは広角画像の歪みを無視しているか、ピクセルレベルのタスクを実行するのに適していないことがよくあります。
この論文では、放射状歪みプロファイルによって定義される物理的特性を活用して、広角レンズの歪みに適応する放射状トランス アーキテクチャに基づくエンコーダ/デコーダ モデルを紹介します。
分類タスクのみを実行する元のモデルとは対照的に、ピクセル レベルのタスク用に設計された U-Net アーキテクチャである DarSwin-Unet を導入します。
さらに、入力トークンを作成するために画像をサンプリングする際のスパース性を最小限に抑える新しい戦略を提案します。
私たちのアプローチは、広角魚眼画像のピクセルレベルのタスクを処理するモデルの機能を強化し、現実世界のアプリケーションでより効果的になります。
他のベースラインと比較して、DarSwin-Unet はさまざまなデータセットにわたって最高の結果を達成し、限界レベルの歪み (非常に低い、低い、中程度、高い) でトレーニングし、分布外の歪みを含むすべてのレベルでテストした場合に大幅な向上が見られます。
私たちは深さ推定におけるパフォーマンスを実証し、DarSwin-Unet がさまざまな広角レンズの目に見えない歪みに対してゼロショット適応を実行できることを広範な実験を通じて示します。

要約(オリジナル)

Wide-angle fisheye images are becoming increasingly common for perception tasks in applications such as robotics, security, and mobility (e.g. drones, avionics). However, current models often either ignore the distortions in wide-angle images or are not suitable to perform pixel-level tasks. In this paper, we present an encoder-decoder model based on a radial transformer architecture that adapts to distortions in wide-angle lenses by leveraging the physical characteristics defined by the radial distortion profile. In contrast to the original model, which only performs classification tasks, we introduce a U-Net architecture, DarSwin-Unet, designed for pixel level tasks. Furthermore, we propose a novel strategy that minimizes sparsity when sampling the image for creating its input tokens. Our approach enhances the model capability to handle pixel-level tasks in wide-angle fisheye images, making it more effective for real-world applications. Compared to other baselines, DarSwin-Unet achieves the best results across different datasets, with significant gains when trained on bounded levels of distortions (very low, low, medium, and high) and tested on all, including out-of-distribution distortions. We demonstrate its performance on depth estimation and show through extensive experiments that DarSwin-Unet can perform zero-shot adaptation to unseen distortions of different wide-angle lenses.

arxiv情報

著者 Akshaya Athwale,Ichrak Shili,Émile Bergeron,Ola Ahmad,Jean-François Lalonde
発行日 2024-07-24 14:52:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク