要約
Visual Grounding(VG)は、自然言語の説明に基づいて画像にターゲットオブジェクトをローカライズすることを目的としています。
この論文では、航空ビューからの視覚的接地に焦点を当てた新しいタスクであるAerialVGを提案します。
従来のVGと比較して、aerialVGは新しい課題を提起します\ emph {emg。}は、視覚的に類似した複数のオブジェクトを区別するには外観ベースの接地が不十分であり、位置関係を強調する必要があります。
その上、既存のVGモデルは、高解像度の画像が重大な困難を引き起こす航空画像に適用されると闘います。
これらの課題に対処するために、5Kの実世界の空中画像、50K手動注釈付きの説明、および103Kオブジェクトで構成される最初のaerialVGデータセットを紹介します。
特に、aerialVGデータセットの各アノテーションには、相対的な空間関係が注釈された複数のターゲットオブジェクトが含まれており、包括的な空間推論を実行するためにモデルが必要です。
さらに、特にAerialVGタスクの革新的なモデルを提案します。そこでは、ターゲット領域に焦点を合わせるために階層的な交差出席が考案され、関係認識の接地モジュールが位置関係を推測するように設計されています。
実験結果は、データセットとメソッドの有効性を検証し、空中視覚接地における空間推論の重要性を強調します。
コードとデータセットがリリースされます。
要約(オリジナル)
Visual grounding (VG) aims to localize target objects in an image based on natural language descriptions. In this paper, we propose AerialVG, a new task focusing on visual grounding from aerial views. Compared to traditional VG, AerialVG poses new challenges, \emph{e.g.}, appearance-based grounding is insufficient to distinguish among multiple visually similar objects, and positional relations should be emphasized. Besides, existing VG models struggle when applied to aerial imagery, where high-resolution images cause significant difficulties. To address these challenges, we introduce the first AerialVG dataset, consisting of 5K real-world aerial images, 50K manually annotated descriptions, and 103K objects. Particularly, each annotation in AerialVG dataset contains multiple target objects annotated with relative spatial relations, requiring models to perform comprehensive spatial reasoning. Furthermore, we propose an innovative model especially for the AerialVG task, where a Hierarchical Cross-Attention is devised to focus on target regions, and a Relation-Aware Grounding module is designed to infer positional relations. Experimental results validate the effectiveness of our dataset and method, highlighting the importance of spatial reasoning in aerial visual grounding. The code and dataset will be released.
arxiv情報
著者 | Junli Liu,Qizhi Chen,Zhigang Wang,Yiwen Tang,Yiting Zhang,Chi Yan,Dong Wang,Xuelong Li,Bin Zhao |
発行日 | 2025-04-11 01:47:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google