Extracting polygonal footprints in off-nadir images with Segment Anything Model

要約

オフナディア航空画像の建物フットプリント抽出 (BFE) は、多くの場合、屋根のセグメンテーションと屋根からフットプリントまでのオフセット予測に依存し、オフセットを介して屋根からフットプリントまでドラッグします。
ただし、予測によって与えられるマスクの品質が低いため、この多段階推論の結果はデー​​タ生成には適用できません。
この問題を解決するために、この論文では、エンドツーエンドで即時可能なポリゴン フットプリント予測の両方をサポートする OBMv2 を提案しました。
OBM とは異なり、OBMv2 は新しく提案されたセルフ オフセット アテンション (SOFA) を使用してバンガローと超高層ビルのパフォーマンス ギャップを埋めることで、後処理なしで実際のエンドツーエンドのフットプリント ポリゴン予測を実現しました。
% (非最大抑制 (NMS) や距離 NMS (DNMS) など)。
屋根マスク、建物マスク、オフセットに含まれる情報を最大限に活用するために、OBMv2 が不十分な予測でもフットプリントを予測できるフットプリント予測用のマルチレベル情報システム (MISS) を提案しました。
さらに、同じモデルから情報を絞り出すために、Nature Language Processing の検索拡張生成 (RAG) からインスピレーションを得て、「RAG in BFE」問題を提案しました。
提案手法の有効性を検証するために、オープンデータセットBONAIとOmniCity-view3に対して実験を実施した。
一般化テストも恵州テストセットで実施されました。
コードは \url{https://github.com/likaiucas/OBM} で入手できます。

要約(オリジナル)

Building Footprint Extraction (BFE) in off-nadir aerial images often relies on roof segmentation and roof-to-footprint offset prediction, then drugging roof-to-footprint via the offset. However, the results from this multi-stage inference are not applicable in data production, because of the low quality of masks given by prediction. To solve this problem, we proposed OBMv2 in this paper, which supports both end-to-end and promptable polygonal footprint prediction. Different from OBM, OBMv2 using a newly proposed Self Offset Attention (SOFA) to bridge the performance gap on bungalow and skyscraper, which realized a real end-to-end footprint polygon prediction without postprocessing. %, such as Non-Maximum Suppression (NMS) and Distance NMS (DNMS). % To fully use information contained in roof masks, building masks and offsets, we proposed a Multi-level Information SyStem (MISS) for footprint prediction, with which OBMv2 can predict footprints even with insufficient predictions. Additionally, to squeeze information from the same model, we were inspired by Retrieval-Augmented Generation (RAG) in Nature Language Processing and proposed ‘RAG in BFE’ problem. To verify the effectiveness of the proposed method, experiments were conducted on open datasets BONAI and OmniCity-view3. A generalization test was also conducted on Huizhou test set. The code will be available at \url{https://github.com/likaiucas/OBM}.

arxiv情報

著者 Kai Li,Jingbo Chen,Yupeng Deng,Yu Meng,Diyou Liu,Junxian Ma,Chenhao Wang
発行日 2024-08-16 10:21:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク