AeroReformer: Aerial Referring Transformer for UAV-based Referring Image Segmentation

要約

斬新で挑戦的なタスクとして、セグメンテーションを参照することで、コンピュータービジョンと自然言語処理を組み合わせて、テキストの説明に基づいてオブジェクトをローカライズおよびセグメント化します。
画像セグメンテーション(RIS)を参照している間、自然な画像で広く研究されていますが、特に無人航空機(UAV)からの航空画像にはほとんど注意が払われていません。
複雑な空間スケール、閉塞、さまざまなオブジェクトの向きを含むUAV画像のユニークな課題は、既存のRIアプローチを効果的ではありません。
重要な制限は、ピクセルレベルのマスクに手動で注釈を付け、テキストの説明を生成することは労働集約的で時間がかかるため、UAV固有のデータセットの欠如です。
このギャップに対処するために、テキストの説明を生成するために、既存のUAVセグメンテーションデータセットとマルチモーダル大手言語モデル(MLLM)を活用する自動ラベル付けパイプラインを設計します。
さらに、効果的なクロスモーダルの理解と回転を覚えているマルチスケール融合(RAMSF)のデコダルのための視覚言語クロスアテナントモジュール(VLCAM)を特徴とするUAV紹介画像セグメンテーション(UAV-RIS)の新しいフレームワークである航空紹介トランス(AeroreFormer)を提案します。
新しく開発された2つのデータセットでの広範な実験は、既存の方法よりもAeroreFormerの優位性を示しており、UAV-Risの新しいベンチマークを確立しています。
データセットとコードは、https://github.com/lironui/aeroreformerで公開されます。

要約(オリジナル)

As a novel and challenging task, referring segmentation combines computer vision and natural language processing to localize and segment objects based on textual descriptions. While referring image segmentation (RIS) has been extensively studied in natural images, little attention has been given to aerial imagery, particularly from unmanned aerial vehicles (UAVs). The unique challenges of UAV imagery, including complex spatial scales, occlusions, and varying object orientations, render existing RIS approaches ineffective. A key limitation has been the lack of UAV-specific datasets, as manually annotating pixel-level masks and generating textual descriptions is labour-intensive and time-consuming. To address this gap, we design an automatic labelling pipeline that leverages pre-existing UAV segmentation datasets and Multimodal Large Language Models (MLLM) for generating textual descriptions. Furthermore, we propose Aerial Referring Transformer (AeroReformer), a novel framework for UAV referring image segmentation (UAV-RIS), featuring a Vision-Language Cross-Attention Module (VLCAM) for effective cross-modal understanding and a Rotation-Aware Multi-Scale Fusion (RAMSF) decoder to enhance segmentation accuracy in aerial scenes. Extensive experiments on two newly developed datasets demonstrate the superiority of AeroReformer over existing methods, establishing a new benchmark for UAV-RIS. The datasets and code will be publicly available at: https://github.com/lironui/AeroReformer.

arxiv情報

著者 Rui Li,Xiaowei Zhao
発行日 2025-02-28 17:19:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク