SegForestNet: Spatial-Partitioning-Based Aerial Image Segmentation

要約

航空画像セグメンテーションは、地図の自動作成や森林伐採の追跡などのアプリケーションの基礎となります。
これらのアプリケーションでよく使用される真のオルソフォトでは、多くのオブジェクトや領域をポリゴンで適切に近似できます。
ただし、この事実が最先端のセマンティック セグメンテーション モデルで活用されることはほとんどありません。
代わりに、ほとんどのモデルは、任意の領域形状を許可することで、予測に不必要な自由度を許可します。
そこで、効率的なポリゴン表現であるバイナリ空間分割ツリーを予測する深層学習モデルの改良版を紹介します。
改良点には、新しい機能デコーダー アーキテクチャと新しい微分可能な BSP ツリー レンダラーが含まれており、両方とも勾配の消失を回避します。
さらに、予測ツリーによって定義される空間分割を改善するために特別に設計された新しい損失関数を設計しました。
さらに、拡張されたモデルは複数のツリーを一度に予測できるため、クラス固有のセグメンテーションを予測できます。
追加の貢献として、最適化されたトレーニング プロセスと比較して、最適化されていないトレーニング プロセスの影響を調査しました。
PFNet や独自のモデルなど、航空画像用に最適化されたモデル アーキテクチャは、最適でない条件下では利点を示しますが、この利点は最適なトレーニング条件下では消失します。
この観察にもかかわらず、私たちのモデルは依然として、小さな長方形の物体 (例: 車) に対してより適切な予測を行っています。

要約(オリジナル)

Aerial image segmentation is the basis for applications such as automatically creating maps or tracking deforestation. In true orthophotos, which are often used in these applications, many objects and regions can be approximated well by polygons. However, this fact is rarely exploited by state-of-the-art semantic segmentation models. Instead, most models allow unnecessary degrees of freedom in their predictions by allowing arbitrary region shapes. We therefore present a refinement of our deep learning model which predicts binary space partitioning trees, an efficient polygon representation. The refinements include a new feature decoder architecture and a new differentiable BSP tree renderer which both avoid vanishing gradients. Additionally, we designed a novel loss function specifically designed to improve the spatial partitioning defined by the predicted trees. Furthermore, our expanded model can predict multiple trees at once and thus can predict class-specific segmentations. As an additional contribution, we investigate the impact of a non-optimal training process in comparison to an optimized training process. While model architectures optimized for aerial images, such as PFNet or our own model, show an advantage under non-optimal conditions, this advantage disappears under optimal training conditions. Despite this observation, our model still makes better predictions for small rectangular objects, e.g., cars.

arxiv情報

著者 Daniel Gritzner,Jörn Ostermann
発行日 2024-02-28 14:55:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, I.5.4 パーマリンク