SpecDETR: A Transformer-based Hyperspectral Point Object Detection Network

要約

ハイパースペクトル ターゲット検出 (HTD) は、ハイパースペクトル画像のスペクトル情報に基づいて特定の物質を識別することを目的としており、非常に小さな物体 (一部は 1 ピクセル未満の領域を占める) を検出できます。
ただし、既存の HTD メソッドはピクセルごとのバイナリ分類に基づいて開発されているため、インスタンス レベルのオブジェクトの特徴表現能力が制限されます。
この論文では、点物体検出の観点からハイパースペクトルターゲット検出を再考し、ハイパースペクトルマルチクラス点物体検出に特化した最初のネットワーク SpecDETR を提案します。
現在の物体検出フレームワークの視覚基盤モデルがなければ、SpecDETR は入力画像の各ピクセルをトークンとして扱い、自己励起サブピクセルスケールのアテンション モジュールを備えたマルチレイヤー Transformer エンコーダを使用して、画像から結合空間スペクトル特徴を直接抽出します。
特徴抽出中に、自励増幅を通じてオブジェクトの特徴を強化する自励メカニズムを導入し、それによってネットワークの収束を加速します。
さらに、SpecDETR は、点オブジェクトの検出を 1 対多の集合予測問題として扱うため、最先端 (SOTA) DETR デコーダを超える簡潔で効率的な DETR デコーダを実現します。
私たちは、SPOD と呼ばれるシミュレートされたハイパースペクトル点オブジェクト検出ベンチマークを開発し、ハイパースペクトル点オブジェクト検出に関する現在のオブジェクト検出ネットワークと HTD メソッドのパフォーマンスを初めて評価および比較します。
広範な実験により、私たちが提案した SpecDETR が SOTA 物体検出ネットワークや HTD 手法よりも優れていることが実証されました。
コードとデータセットは https://github.com/ZhaoxuLi123/SpecDETR で入手できます。

要約(オリジナル)

Hyperspectral target detection (HTD) aims to identify specific materials based on spectral information in hyperspectral imagery and can detect extremely small objects, some of which occupy a smaller than one-pixel area. However, existing HTD methods are developed based on per-pixel binary classification, which limits the feature representation capability for instance-level objects. In this paper, we rethink the hyperspectral target detection from the point object detection perspective, and propose the first specialized network for hyperspectral multi-class point object detection, SpecDETR. Without the visual foundation model of the current object detection framework, SpecDETR treats each pixel in input images as a token and uses a multi-layer Transformer encoder with self-excited subpixel-scale attention modules to directly extract joint spatial-spectral features from images. During feature extraction, we introduce a self-excited mechanism to enhance object features through self-excited amplification, thereby accelerating network convergence. Additionally, SpecDETR regards point object detection as a one-to-many set prediction problem, thereby achieving a concise and efficient DETR decoder that surpasses the state-of-the-art (SOTA) DETR decoder. We develop a simulated hyperSpectral Point Object Detection benchmark termed SPOD, and for the first time, evaluate and compare the performance of current object detection networks and HTD methods on hyperspectral point object detection. Extensive experiments demonstrate that our proposed SpecDETR outperforms SOTA object detection networks and HTD methods. Our code and dataset are available at https://github.com/ZhaoxuLi123/SpecDETR.

arxiv情報

著者 Zhaoxu Li,Wei An,Gaowei Guo,Longguang Wang,Yingqian Wang,Zaiping Lin
発行日 2025-01-02 03:20:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク