魚眼カメラは、広い視野 (LFOV) を持つ一方で画像の歪みに悩まされます。
そして、この事実は、一部の魚眼ビジョン タスクでパフォーマンスの低下につながります。
解決策の 1 つは、魚眼画像の現在のビジョン アルゴリズムを最適化することです。
ただし、CNN ベースの方法と Transformer ベースの方法のほとんどには、歪み情報を効率的に活用する機能がありません。
この作業では、魚眼画像の歪みパターンに適合する、Sector Patch Embedding(SPE) と呼ばれる新しいパッチ埋め込み方法を提案します。
さらに、ImageNet-1K に基づく合成魚眼データセットを提案し、データセットでのいくつかの Transformer モデルのパフォーマンスを調べます。
ViT と PVT の分類トップ 1 精度は、SPE でそれぞれ 0.75% と 2.8% 向上します。
私たちの方法は、他の Transformer ベースのモデルに簡単に適用できます。
ソース コードは https://github.com/IN2-ViAUn/Sector-Patch-Embedding にあります。
Fisheye cameras suffer from image distortion while having a large field of view(LFOV). And this fact leads to poor performance on some fisheye vision tasks. One of the solutions is to optimize the current vision algorithm for fisheye images. However, most of the CNN-based methods and the Transformer-based methods lack the capability of leveraging distortion information efficiently. In this work, we propose a novel patch embedding method called Sector Patch Embedding(SPE), conforming to the distortion pattern of the fisheye image. Furthermore, we put forward a synthetic fisheye dataset based on the ImageNet-1K and explore the performance of several Transformer models on the dataset. The classification top-1 accuracy of ViT and PVT is improved by 0.75% and 2.8% with SPE respectively. The experiments show that the proposed sector patch embedding method can better perceive distortion and extract features on the fisheye images. Our method can be easily adopted to other Transformer-based models. Source code is at https://github.com/IN2-ViAUn/Sector-Patch-Embedding.
著者 | Dianyi Yang,Jiadong Tang,Yu Gao,Yi Yang,Mengyin Fu |
発行日 | 2023-03-26 07:20:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google