要約
アースビジョンの研究は通常、地理空間的なオブジェクトの位置とカテゴリを抽出することに焦点を当てますが、オブジェクト間の関係の調査や包括的な推論は無視されます。
都市計画のニーズに基づいて、マルチモーダル マルチタスク VQA データセット (EarthVQA) を開発し、関係推論に基づく判断、計数、および包括的な分析を推進します。
EarthVQA データセットには、6,000 枚の画像、対応するセマンティック マスク、および都市と地方のガバナンス要件が組み込まれた 208,593 の QA ペアが含まれています。
オブジェクトは複雑な関係推論の基礎であるため、オブジェクト中心の方法で VQA を推進するためのセマンティック オブジェクト認識フレームワーク (SOBA) を提案します。
洗練された空間位置とセマンティクスを保持するために、SOBA はオブジェクト セマンティクスの生成にセグメンテーション ネットワークを利用します。
オブジェクト誘導型アテンションは、擬似マスクを介してオブジェクト内部の特徴を集約し、双方向クロスアテンションはオブジェクトの外部関係を階層的にさらにモデル化します。
オブジェクトのカウントを最適化するために、差分ペナルティを動的に追加し、分類タスクと回帰タスクを統合する数値差分損失を提案します。
実験結果は、SOBA が高度な一般センシング手法とリモートセンシング手法の両方よりも優れていることを示しています。
私たちは、このデータセットとフレームワークが Earth ビジョンの複雑な分析に強力なベンチマークを提供すると信じています。
プロジェクト ページは https://Junjue-Wang.github.io/homepage/EarthVQA にあります。
要約(オリジナル)
Earth vision research typically focuses on extracting geospatial object locations and categories but neglects the exploration of relations between objects and comprehensive reasoning. Based on city planning needs, we develop a multi-modal multi-task VQA dataset (EarthVQA) to advance relational reasoning-based judging, counting, and comprehensive analysis. The EarthVQA dataset contains 6000 images, corresponding semantic masks, and 208,593 QA pairs with urban and rural governance requirements embedded. As objects are the basis for complex relational reasoning, we propose a Semantic OBject Awareness framework (SOBA) to advance VQA in an object-centric way. To preserve refined spatial locations and semantics, SOBA leverages a segmentation network for object semantics generation. The object-guided attention aggregates object interior features via pseudo masks, and bidirectional cross-attention further models object external relations hierarchically. To optimize object counting, we propose a numerical difference loss that dynamically adds difference penalties, unifying the classification and regression tasks. Experimental results show that SOBA outperforms both advanced general and remote sensing methods. We believe this dataset and framework provide a strong benchmark for Earth vision’s complex analysis. The project page is at https://Junjue-Wang.github.io/homepage/EarthVQA.
arxiv情報
著者 | Junjue Wang,Zhuo Zheng,Zihang Chen,Ailong Ma,Yanfei Zhong |
発行日 | 2023-12-19 15:11:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google