Ghost-dil-NetVLAD: A Lightweight Neural Network for Visual Place Recognition

要約

視覚的場所認識 (VPR) は、膨大な計算コストと高い認識パフォーマンスの間でバランスが取れていない困難なタスクです。
軽量畳み込みニューラル ネットワーク (CNN) の実用的な特徴抽出能力と、ローカル集約記述子ベクトル (VLAD) 層のトレーニング能力のおかげで、我々は、フロント
GhostCNN と呼ばれるエンド知覚モデルと、バックエンドとしての学習可能な VLAD レイヤー。
GhostCNN は、軽量の CNN ベースのアーキテクチャである Ghost モジュールに基づいています。
従来の畳み込みプロセスの代わりに線形演算を使用して冗長な特徴マップを生成でき、計算リソースと認識精度の間で適切なトレードオフを実現します。
提案した軽量モデルをさらに強化するために、拡張畳み込みを Ghost モジュールに追加して、より多くの空間意味情報を含む特徴を取得し、精度を向上させます。
最後に、一般的に使用されている公開ベンチマークと私たちのプライベート データセットで行われた豊富な実験により、提案されたニューラル ネットワークが VGG16-NetVLAD の FLOP とパラメーターをそれぞれ 99.04% と 80.16% 削減することが検証されました。
さらに、両方のモデルは同様の精度を達成します。

要約(オリジナル)

Visual place recognition (VPR) is a challenging task with the unbalance between enormous computational cost and high recognition performance. Thanks to the practical feature extraction ability of the lightweight convolution neural networks (CNNs) and the train-ability of the vector of locally aggregated descriptors (VLAD) layer, we propose a lightweight weakly supervised end-to-end neural network consisting of a front-ended perception model called GhostCNN and a learnable VLAD layer as a back-end. GhostCNN is based on Ghost modules that are lightweight CNN-based architectures. They can generate redundant feature maps using linear operations instead of the traditional convolution process, making a good trade-off between computation resources and recognition accuracy. To enhance our proposed lightweight model further, we add dilated convolutions to the Ghost module to get features containing more spatial semantic information, improving accuracy. Finally, rich experiments conducted on a commonly used public benchmark and our private dataset validate that the proposed neural network reduces the FLOPs and parameters of VGG16-NetVLAD by 99.04% and 80.16%, respectively. Besides, both models achieve similar accuracy.

arxiv情報

著者 Qingyuan Gong,Yu Liu,Liqiang Zhang,Renhe Liu
発行日 2024-04-16 16:28:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク