要約
航空写真の解析、特にセマンティックセグメンテーションは、地図の自動作成と更新、都市の成長の追跡、森林伐採の追跡などのアプリケーションの基礎となるものである。このような用途によく用いられる正投影画像では、多くの物体や領域が多角形で近似される。しかし、この事実は、最新のセマンティックセグメンテーションモデルではほとんど利用されていない。その代わり、多くのモデルは任意の領域形状を許容することで、予測に不要な自由度を与えている。そこで我々は、効率的なポリゴン表現である二項空間分割木を予測する深層学習モデルのリファインメントを発表する。リファインメントには、新しい特徴量デコーダアーキテクチャと新しい微分可能なBSPツリーレンダラが含まれ、いずれも消失勾配を回避します。さらに、予測された木によって定義される空間分割を改善するために特別に設計された新しい損失関数を設計しました。さらに、このモデルでは、複数の木を同時に予測することができるため、クラス固有のセグメンテーションを予測することができる。これらの改良により、我々のモデルは、小さなバックボーンモデルを使用する場合は最大60%、大きなバックボーンモデルを使用する場合は最大20%少ないモデルパラメータで、最先端の性能を達成することができる。
要約(オリジナル)
Aerial image analysis, specifically the semantic segmentation thereof, is the basis for applications such as automatically creating and updating maps, tracking city growth, or tracking deforestation. In true orthophotos, which are often used in these applications, many objects and regions can be approximated well by polygons. However, this fact is rarely exploited by state-of-the-art semantic segmentation models. Instead, most models allow unnecessary degrees of freedom in their predictions by allowing arbitrary region shapes. We therefore present a refinement of our deep learning model which predicts binary space partitioning trees, an efficient polygon representation. The refinements include a new feature decoder architecture and a new differentiable BSP tree renderer which both avoid vanishing gradients. Additionally, we designed a novel loss function specifically designed to improve the spatial partitioning defined by the predicted trees. Furthermore, our expanded model can predict multiple trees at once and thus can predict class-specific segmentations. Taking all modifications together, our model achieves state-of-the-art performance while using up to 60% fewer model parameters when using a small backbone model or up to 20% fewer model parameters when using a large backbone model.
arxiv情報
著者 | Daniel Gritzner,Jörn Ostermann |
発行日 | 2023-02-03 07:35:53+00:00 |
arxivサイト | arxiv_id(pdf) |