Scene Graph Generation in Large-Size VHR Satellite Imagery: A Large-Scale Dataset and A Context-Aware Approach

要約

衛星画像 (SAI) におけるシーン グラフ生成 (SGG) は、知覚から認知までの地理空間シナリオのインテリジェントな理解を促進するという利点があります。
SAI では、オブジェクトのスケールやアスペクト比が大きく異なり、オブジェクト間には (空間的に分離したオブジェクト間でも) 豊富な関係が存在するため、大規模な超高解像度 (VHR) SAI では SGG を総合的に実行する必要があります。
しかし、大規模な VHR SAI を備えた SGG データセットが不足しているため、SAI における SGG の進歩が制約されています。
大型 VHR SAI は複雑であるため、大型 VHR SAI でのトリプレット <主語、関係、オブジェクト> のマイニングは、長距離の文脈推論に大きく依存します。
したがって、小型の自然画像用に設計された SGG モデルは、大型の VHR SAI には直接適用できません。
データセットの不足に対処するために、この論文では、画像サイズが 512 x 768 ~ 27,860 x 31,096 ピクセルの範囲で、210,000 個を超えるオブジェクトと 400,000 個を超えるトリプレットを含む、RSG と呼ばれる大規模な VHR SAI で SGG 用の大規模データセットを構築します。
大規模な VHR SAI で SGG を実現するために、オブジェクト検出 (OBD)、ペア プルーニング、および関係予測の 3 つのレベルで SAI を理解するためのコンテキスト認識カスケード認知 (CAC) フレームワークを提案します。
大規模SAIにおけるSGGの基本的な前提条件として、マルチスケールのコンテキストを柔軟に統合できる総合的なマルチクラスオブジェクト検出ネットワーク(HOD-Net)が提案されています。
大規模SAIには膨大な量のオブジェクトペアが存在するが、意味のある関係を含むオブジェクトペアは少数であることを考慮して、価値の高いペアを選択するための敵対的再構成によるペア提案生成(PPG)ネットワークを設計します。
さらに、これらのペアの関係タイプを予測するために、コンテキスト認識メッセージング (RPCM) を備えた関係予測ネットワークが提案されています。

要約(オリジナル)

Scene graph generation (SGG) in satellite imagery (SAI) benefits promoting intelligent understanding of geospatial scenarios from perception to cognition. In SAI, objects exhibit great variations in scales and aspect ratios, and there exist rich relationships between objects (even between spatially disjoint objects), which makes it necessary to holistically conduct SGG in large-size very-high-resolution (VHR) SAI. However, the lack of SGG datasets with large-size VHR SAI has constrained the advancement of SGG in SAI. Due to the complexity of large-size VHR SAI, mining triplets in large-size VHR SAI heavily relies on long-range contextual reasoning. Consequently, SGG models designed for small-size natural imagery are not directly applicable to large-size VHR SAI. To address the scarcity of datasets, this paper constructs a large-scale dataset for SGG in large-size VHR SAI with image sizes ranging from 512 x 768 to 27,860 x 31,096 pixels, named RSG, encompassing over 210,000 objects and more than 400,000 triplets. To realize SGG in large-size VHR SAI, we propose a context-aware cascade cognition (CAC) framework to understand SAI at three levels: object detection (OBD), pair pruning and relationship prediction. As a fundamental prerequisite for SGG in large-size SAI, a holistic multi-class object detection network (HOD-Net) that can flexibly integrate multi-scale contexts is proposed. With the consideration that there exist a huge amount of object pairs in large-size SAI but only a minority of object pairs contain meaningful relationships, we design a pair proposal generation (PPG) network via adversarial reconstruction to select high-value pairs. Furthermore, a relationship prediction network with context-aware messaging (RPCM) is proposed to predict the relationship types of these pairs.

arxiv情報

著者 Yansheng Li,Linlin Wang,Tingzhu Wang,Xue Yang,Junwei Luo,Qi Wang,Youming Deng,Wenbin Wang,Xian Sun,Haifeng Li,Bo Dang,Yongjun Zhang,Yi Yu,Junchi Yan
発行日 2024-06-13 17:59:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク