DUFormer: Solving Power Line Detection Task in Aerial Images using Semantic Segmentation

要約

無人航空機 (UAV) は、送電線の検査や高解像度の航空画像の撮影に頻繁に使用されます。
ただし、前景データ (つまり、電力線) が小さく、背景情報が豊富であるため、航空画像内の電力線を検出することは困難です。この問題に取り組むために、私たちは、航空画像で電力線を検出するために明示的に設計されたセマンティック セグメンテーション アルゴリズム DUFormer を導入します。
航空写真。
強い帰納バイアスを持つ畳み込みニューラル ネットワーク (CNN) を使用して、十分な特徴抽出を備えた効率的な Transformer モデルをトレーニングすることが有利であると仮定します。この目標を念頭に置いて、重複する特徴リモデリングとトークン化を実行するヘビー トークン エンコーダーを導入します。
エンコーダは、ピラミッド CNN 特徴抽出モジュールと電力線特徴強調モジュールで構成されます。電力線の局所特徴抽出に成功した後、特徴融合が行われます。その後、Transformer ブロックがグローバル モデリングに使用されます。
最終的なセグメンテーション結果は、デコード ヘッドでローカルとグローバルの特徴を融合することによって得られます。さらに、電力線セグメンテーションにおける結合マルチ重み損失関数の重要性を実証します。
私たちの実験結果は、私たちが提案した方法が、公的にアクセス可能なTTPLAデータセットでの電力線セグメンテーションにおいて、すべての最先端の方法よりも優れていることを示しています。

要約(オリジナル)

Unmanned aerial vehicles (UAVs) are frequently used for inspecting power lines and capturing high-resolution aerial images. However, detecting power lines in aerial images is difficult,as the foreground data(i.e, power lines) is small and the background information is abundant.To tackle this problem, we introduce DUFormer, a semantic segmentation algorithm explicitly designed to detect power lines in aerial images. We presuppose that it is advantageous to train an efficient Transformer model with sufficient feature extraction using a convolutional neural network(CNN) with a strong inductive bias.With this goal in mind, we introduce a heavy token encoder that performs overlapping feature remodeling and tokenization. The encoder comprises a pyramid CNN feature extraction module and a power line feature enhancement module.After successful local feature extraction for power lines, feature fusion is conducted.Then,the Transformer block is used for global modeling. The final segmentation result is achieved by amalgamating local and global features in the decode head.Moreover, we demonstrate the importance of the joint multi-weight loss function in power line segmentation. Our experimental results show that our proposed method outperforms all state-of-the-art methods in power line segmentation on the publicly accessible TTPLA dataset.

arxiv情報

著者 Deyu An,Qiang Zhang,Jianshu Chao,Ting Li,Feng Qiao,Yong Deng,Zhenpeng Bian
発行日 2023-08-31 14:15:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク