要約
リモート センシング画像から建物の輪郭を抽出することは、建物の複雑で多様な形状、オクルージョン、ノイズのため、大きな課題です。
既存の方法では、不規則な輪郭、丸い角、冗長点に問題があり、正多角形の建物の輪郭を生成するには大規模な後処理が必要になることがよくあります。
これらの課題に対処するために、後処理を行わずに規則的な建物の輪郭を生成する、新しい合理化されたパイプラインを導入します。
私たちのアプローチは、一般的な幾何学的プリミティブ (頂点、線、角を含むことができる) のセグメント化から始まり、続いてそれらのシーケンスを予測します。
これにより、セグメント化されたプリミティブを順番に接続することで、通常の建物の輪郭を直接構築することができます。
このパイプラインに基づいて、トランスフォーマーベースのアーキテクチャを利用して幾何学的プリミティブをセグメント化し、その順序を予測する P2PFormer を開発しました。
プリミティブのセグメンテーションを強化するために、グループ クエリと呼ばれる独自の表現を導入します。
この表現は、クエリのセットと単一のクエリ位置で構成され、プリミティブの複数の中間点とそれらの効率的な結合への焦点が向上します。
さらに、正しい位置に対するクエリの焦点を明確にし、その結果としてプリミティブ セグメンテーションの品質を向上させることを目的とした、クエリ位置埋め込みのための革新的な暗黙的更新戦略を提案します。
私たちの実験では、P2PFormer が WHU、CrowdAI、WHU-Mix データセットで新しい最先端のパフォーマンスを達成し、最大の CrowdAI データセットで以前の SOTA PolyWorld を 2.7 AP および 6.5 AP75 上回ることが実証されました。
要約(オリジナル)
Extracting building contours from remote sensing imagery is a significant challenge due to buildings’ complex and diverse shapes, occlusions, and noise. Existing methods often struggle with irregular contours, rounded corners, and redundancy points, necessitating extensive post-processing to produce regular polygonal building contours. To address these challenges, we introduce a novel, streamlined pipeline that generates regular building contours without post-processing. Our approach begins with the segmentation of generic geometric primitives (which can include vertices, lines, and corners), followed by the prediction of their sequence. This allows for the direct construction of regular building contours by sequentially connecting the segmented primitives. Building on this pipeline, we developed P2PFormer, which utilizes a transformer-based architecture to segment geometric primitives and predict their order. To enhance the segmentation of primitives, we introduce a unique representation called group queries. This representation comprises a set of queries and a singular query position, which improve the focus on multiple midpoints of primitives and their efficient linkage. Furthermore, we propose an innovative implicit update strategy for the query position embedding aimed at sharpening the focus of queries on the correct positions and, consequently, enhancing the quality of primitive segmentation. Our experiments demonstrate that P2PFormer achieves new state-of-the-art performance on the WHU, CrowdAI, and WHU-Mix datasets, surpassing the previous SOTA PolyWorld by a margin of 2.7 AP and 6.5 AP75 on the largest CrowdAI dataset
arxiv情報
著者 | Tao Zhang,Shiqing Wei,Yikang Zhou,Muying Luo,Wenling You,Shunping Ji |
発行日 | 2024-11-29 15:30:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google