要約
高解像度のリモート センシング画像における屋根から敷地までのオフセットを正確に測定することは、都市情報抽出タスクにとって非常に重要です。
深層学習の助けを借りて、既存の方法は通常、2 段階の CNN モデルに依存して、特徴マップを構築する際に対象領域を抽出します。
最初の段階では、領域提案ネットワーク (RPN) を適用して数千の ROI (関心領域) を抽出します。ROI は領域ベースの畳み込みニューラル ネットワーク (RCNN) に後からインポートされ、必要な情報が抽出されます。
ただし、RPN が柔軟性に欠けるため、これらの方法では効果的なユーザー インタラクションが欠如し、インスタンスの対応に困難が生じ、一般的な人工知能の進歩に追いつくのが困難になることがよくあります。
このペーパーでは、建物のセグメンテーションと屋根からフットプリントまでのオフセット ベクトルを正確に抽出するためのプロンプト エンコーダーと組み合わせたインタラクティブな Transformer モデルを紹介します。
私たちのモデルでは、ROAM という強力なモジュールが、屋根から設置面積までのオフセットを予測する際の一般的な問題に合わせて調整されています。
私たちは、公開されている BONAI データセットでモデルの実現可能性をテストし、プロンプト インスタンス レベルのオフセット誤差を 14.6% から 16.3% まで大幅に削減することに成功しました。
さらに、大規模な建物のオフセットに合わせて調整された Distance-NMS アルゴリズムを開発し、単純かつ効率的な方法で予測される建物のオフセット角度と長さの精度を大幅に向上させました。
モデルの堅牢性をさらに検証するために、中国の恵州からの 0.5 メートルのリモート センシング画像を使用して推論テスト用の新しいテスト セットを作成しました。
私たちのコード、トレーニング方法、更新されたデータセットには https://github.com/likaiucas からアクセスできます。
要約(オリジナル)
Accurate measurement of the offset from roof-to-footprint in very-high-resolution remote sensing imagery is crucial for urban information extraction tasks. With the help of deep learning, existing methods typically rely on two-stage CNN models to extract regions of interest on building feature maps. At the first stage, a Region Proposal Network (RPN) is applied to extract thousands of ROIs (Region of Interests) which will post-imported into a Region-based Convolutional Neural Networks (RCNN) to extract wanted information. However, because of inflexible RPN, these methods often lack effective user interaction, encounter difficulties in instance correspondence, and struggle to keep up with the advancements in general artificial intelligence. This paper introduces an interactive Transformer model combined with a prompt encoder to precisely extract building segmentation as well as the offset vectors from roofs to footprints. In our model, a powerful module, namely ROAM, was tailored for common problems in predicting roof-to-footprint offsets. We tested our model’s feasibility on the publicly available BONAI dataset, achieving a significant reduction in Prompt-Instance-Level offset errors ranging from 14.6% to 16.3%. Additionally, we developed a Distance-NMS algorithm tailored for large-scale building offsets, significantly enhancing the accuracy of predicted building offset angles and lengths in a straightforward and efficient manner. To further validate the model’s robustness, we created a new test set using 0.5m remote sensing imagery from Huizhou, China, for inference testing. Our code, training methods, and the updated dataset will be accessable at https://github.com/likaiucas.
arxiv情報
著者 | Kai Li,Yupeng Deng,Yunlong Kong,Diyou Liu,Jingbo Chen,Yu Meng,Junxian Ma |
発行日 | 2023-10-25 15:44:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google