SegForestNet: Spatial-Partitioning-Based Aerial Image Segmentation


ただし、この事実が最先端のセマンティック セグメンテーション モデルで活用されることはほとんどありません。
改良点には、新しい機能デコーダー アーキテクチャと新しい微分可能な BSP ツリー レンダラーが含まれており、両方とも勾配の消失を回避します。
追加の貢献として、最適化されたトレーニング プロセスと比較して、最適化されていないトレーニング プロセスの影響を調査しました。
PFNet や独自のモデルなど、航空画像用に最適化されたモデル アーキテクチャは、最適でない条件下では利点を示しますが、この利点は最適なトレーニング条件下では消失します。
この観察にもかかわらず、私たちのモデルは依然として、小さな長方形の物体 (例: 車) に対してより適切な予測を行っています。


Aerial image segmentation is the basis for applications such as automatically creating maps or tracking deforestation. In true orthophotos, which are often used in these applications, many objects and regions can be approximated well by polygons. However, this fact is rarely exploited by state-of-the-art semantic segmentation models. Instead, most models allow unnecessary degrees of freedom in their predictions by allowing arbitrary region shapes. We therefore present a refinement of our deep learning model which predicts binary space partitioning trees, an efficient polygon representation. The refinements include a new feature decoder architecture and a new differentiable BSP tree renderer which both avoid vanishing gradients. Additionally, we designed a novel loss function specifically designed to improve the spatial partitioning defined by the predicted trees. Furthermore, our expanded model can predict multiple trees at once and thus can predict class-specific segmentations. As an additional contribution, we investigate the impact of a non-optimal training process in comparison to an optimized training process. While model architectures optimized for aerial images, such as PFNet or our own model, show an advantage under non-optimal conditions, this advantage disappears under optimal training conditions. Despite this observation, our model still makes better predictions for small rectangular objects, e.g., cars.


著者 Daniel Gritzner,Jörn Ostermann
発行日 2024-02-28 14:55:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV, I.5.4 パーマリンク