ViTs for SITS: Vision Transformers for Satellite Image Time Series

要約

このホワイト ペーパーでは、Temporo-Spatial Vision Transformer (TSViT) を紹介します。これは、ViT (Vision Transformer) に基づく一般的な衛星画像時系列 (SITS) 処理用の完全な注意モデルです。
TSViT は、SITS レコードを空間と時間で重複しないパッチに分割します。これらのパッチはトークン化され、その後因数分解された時間空間エンコーダーによって処理されます。
自然の画像とは対照的に、時間-空間因数分解はSITS処理にとってより直感的であり、この主張の実験的証拠を提示すると主張します。
さらに、取得時間固有の一時的な位置エンコーディングと複数の学習可能なクラス トークンの 2 つの新しいメカニズムを導入することにより、モデルの識別力を強化します。
すべての新しいデザインの選択の効果は、広範なアブレーション研究を通じて評価されます。
私たちが提案したアーキテクチャは、最先端のパフォーマンスを実現し、3 つの公開されている SITS セマンティック セグメンテーションおよび分類データセットで以前のアプローチを大幅に上回っています。
すべてのモデル、トレーニング、および評価コードは、さらなる研究を容易にするために公開されています。

要約(オリジナル)

In this paper we introduce the Temporo-Spatial Vision Transformer (TSViT), a fully-attentional model for general Satellite Image Time Series (SITS) processing based on the Vision Transformer (ViT). TSViT splits a SITS record into non-overlapping patches in space and time which are tokenized and subsequently processed by a factorized temporo-spatial encoder. We argue, that in contrast to natural images, a temporal-then-spatial factorization is more intuitive for SITS processing and present experimental evidence for this claim. Additionally, we enhance the model’s discriminative power by introducing two novel mechanisms for acquisition-time-specific temporal positional encodings and multiple learnable class tokens. The effect of all novel design choices is evaluated through an extensive ablation study. Our proposed architecture achieves state-of-the-art performance, surpassing previous approaches by a significant margin in three publicly available SITS semantic segmentation and classification datasets. All model, training and evaluation codes are made publicly available to facilitate further research.

arxiv情報

著者 Michail Tarasiou,Erik Chavez,Stefanos Zafeiriou
発行日 2023-01-12 11:33:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク