ViTs for SITS: Vision Transformers for Satellite Image Time Series

要約

タイトル:SITS用のViTs:衛星画像時系列のビジョントランスフォーマー
要約:
– 衛星画像時系列(SITS)の処理に対応する、完全なアテンションモデルであるTemporo-Spatial Vision Transformer(TSViT)を紹介する。
– TSViTは、空間と時間における重複しないパッチにSITSレコードを分割し、トークン化された後、因子化された時間空間エンコーダーによって処理する。
– SITS処理では、自然画像とは異なり、時間重視の空間因子化が直感的であると考え、その主張に対する実験的な証拠を示す。
– 加算時間特定の時空位置符号化と複数の学習可能なクラストークンの導入により、モデルの識別力を向上させる。
– 新しい設計選択の効果は広範な抜き打ち研究によって評価される。
– 提案されたアーキテクチャは、公開されている3つのSITSセマンティックセグメンテーションと分類のデータセットにおいて、従来のアプローチを大幅に上回る最新の性能を達成する。
– すべてのモデル、トレーニング、評価コードは公開され、さらなる研究を促進するために利用可能となる。

要約(オリジナル)

In this paper we introduce the Temporo-Spatial Vision Transformer (TSViT), a fully-attentional model for general Satellite Image Time Series (SITS) processing based on the Vision Transformer (ViT). TSViT splits a SITS record into non-overlapping patches in space and time which are tokenized and subsequently processed by a factorized temporo-spatial encoder. We argue, that in contrast to natural images, a temporal-then-spatial factorization is more intuitive for SITS processing and present experimental evidence for this claim. Additionally, we enhance the model’s discriminative power by introducing two novel mechanisms for acquisition-time-specific temporal positional encodings and multiple learnable class tokens. The effect of all novel design choices is evaluated through an extensive ablation study. Our proposed architecture achieves state-of-the-art performance, surpassing previous approaches by a significant margin in three publicly available SITS semantic segmentation and classification datasets. All model, training and evaluation codes are made publicly available to facilitate further research.

arxiv情報

著者 Michail Tarasiou,Erik Chavez,Stefanos Zafeiriou
発行日 2023-04-14 09:56:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV, cs.LG パーマリンク