Revisiting the Encoding of Satellite Image Time Series

要約

衛星画像時系列 (SITS) 表現の学習は、高い時空間解像度、不規則な取得時間、および複雑な時空間相互作用により複雑です。
これらの課題により、SITS 分析に特化したニューラル ネットワーク アーキテクチャが生まれました。
この分野では、先駆的な研究者によって達成された有望な結果が目撃されていますが、最新の進歩や確立されたパラダイムをコンピュータ ビジョン (CV) から SITS に移行することは、既存の次善の表現学習フレームワークのため依然として非常に困難です。
この論文では、オブジェクト検出または画像セグメンテーション パイプラインを合理化するためにクエリベースのトランスフォーマー デコーダを採用する最近の傾向に触発され、直接集合予測問題として SITS 処理の新しい視点を開発します。
さらに、SITS の表現学習プロセスを 3 つの明示的なステップ (収集、更新、配布) に分解することを提案します。これは計算効率が高く、不規則にサンプリングされた非同期の時間衛星観測に適しています。
独自の再定式化によって促進され、私たちが提案する SITS の時間学習バックボーンは、最初にリソース効率の高いピクセルセット形式で事前トレーニングされ、次に下流の高密度予測タスクで微調整され、新しい最先端 (SOTA) を達成しました。
) PASTIS ベンチマーク データセットの結果。
具体的には、SITS のセマンティック/パノプティック セグメンテーション パイプラインにおける時間コンポーネントと空間コンポーネントが明確に分離されているため、ユニバーサル画像セグメンテーション アーキテクチャなどの CV の最新の進歩を活用することができ、その結果、mIoU が 2.5 ポイント、mIoU が 8.8 ポイント増加しました。
それぞれの PQ を、これまでに報告された最高スコアと比較しました。

要約(オリジナル)

Satellite Image Time Series (SITS) representation learning is complex due to high spatiotemporal resolutions, irregular acquisition times, and intricate spatiotemporal interactions. These challenges result in specialized neural network architectures tailored for SITS analysis. The field has witnessed promising results achieved by pioneering researchers, but transferring the latest advances or established paradigms from Computer Vision (CV) to SITS is still highly challenging due to the existing suboptimal representation learning framework. In this paper, we develop a novel perspective of SITS processing as a direct set prediction problem, inspired by the recent trend in adopting query-based transformer decoders to streamline the object detection or image segmentation pipeline. We further propose to decompose the representation learning process of SITS into three explicit steps: collect-update-distribute, which is computationally efficient and suits for irregularly-sampled and asynchronous temporal satellite observations. Facilitated by the unique reformulation, our proposed temporal learning backbone of SITS, initially pre-trained on the resource efficient pixel-set format and then fine-tuned on the downstream dense prediction tasks, has attained new state-of-the-art (SOTA) results on the PASTIS benchmark dataset. Specifically, the clear separation between temporal and spatial components in the semantic/panoptic segmentation pipeline of SITS makes us leverage the latest advances in CV, such as the universal image segmentation architecture, resulting in a noticeable 2.5 points increase in mIoU and 8.8 points increase in PQ, respectively, compared to the best scores reported so far.

arxiv情報

著者 Xin Cai,Yaxin Bi,Peter Nicholl,Roy Sterritt
発行日 2023-09-08 11:58:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク