GeoFormer: A Multi-Polygon Segmentation Transformer

要約

リモート センシングでは、建物などのオブジェクトのスケール不変の形状を学習するという共通のニーズが存在します。
これまでの研究では、複数の損失関数を微調整してセグメンテーション マップを最終的なスケール不変表現に変換することに依存しており、困難な設計と最適化が必要でした。
この目的のために、前述の課題を解決する新しいアーキテクチャである GeoFormer を導入し、マルチポリゴンをエンドツーエンドで生成する方法を学習します。
GeoFormer は、自己回帰的な方法でキーポイントを空間依存トークンとしてモデル化することにより、衛星画像から建物オブジェクトの輪郭を描く際に既存の作業を上回ります。
私たちは、さまざまなパラメーター アブレーションを通じて以前の方法に対する GeoFormer の堅牢性を評価し、単一の尤度関数を最適化する利点を強調します。
私たちの研究は、リモート センシングにおけるマルチポリゴン予測に対する自己回帰トランスフォーマー モデルの応用に初めて成功したことを示しており、ベクトル化を構築するための有望な方法論的代替手段を示唆しています。

要約(オリジナル)

In remote sensing there exists a common need for learning scale invariant shapes of objects like buildings. Prior works relies on tweaking multiple loss functions to convert segmentation maps into the final scale invariant representation, necessitating arduous design and optimization. For this purpose we introduce the GeoFormer, a novel architecture which presents a remedy to the said challenges, learning to generate multipolygons end-to-end. By modeling keypoints as spatially dependent tokens in an auto-regressive manner, the GeoFormer outperforms existing works in delineating building objects from satellite imagery. We evaluate the robustness of the GeoFormer against former methods through a variety of parameter ablations and highlight the advantages of optimizing a single likelihood function. Our study presents the first successful application of auto-regressive transformer models for multi-polygon predictions in remote sensing, suggesting a promising methodological alternative for building vectorization.

arxiv情報

著者 Maxim Khomiakov,Michael Riis Andersen,Jes Frellsen
発行日 2024-11-25 17:54:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク