要約
タイトル:SITS用のViTs:衛星画像時系列のビジョントランスフォーマー
要約:
– 衛星画像時系列(SITS)の処理に対応する、完全なアテンションモデルであるTemporo-Spatial Vision Transformer(TSViT)を紹介する。
– TSViTは、空間と時間における重複しないパッチにSITSレコードを分割し、トークン化された後、因子化された時間空間エンコーダーによって処理する。
– SITS処理では、自然画像とは異なり、時間重視の空間因子化が直感的であると考え、その主張に対する実験的な証拠を示す。
– 加算時間特定の時空位置符号化と複数の学習可能なクラストークンの導入により、モデルの識別力を向上させる。
– 新しい設計選択の効果は広範な抜き打ち研究によって評価される。
– 提案されたアーキテクチャは、公開されている3つのSITSセマンティックセグメンテーションと分類のデータセットにおいて、従来のアプローチを大幅に上回る最新の性能を達成する。
– すべてのモデル、トレーニング、評価コードは公開され、さらなる研究を促進するために利用可能となる。
要約(オリジナル)
In this paper we introduce the Temporo-Spatial Vision Transformer (TSViT), a fully-attentional model for general Satellite Image Time Series (SITS) processing based on the Vision Transformer (ViT). TSViT splits a SITS record into non-overlapping patches in space and time which are tokenized and subsequently processed by a factorized temporo-spatial encoder. We argue, that in contrast to natural images, a temporal-then-spatial factorization is more intuitive for SITS processing and present experimental evidence for this claim. Additionally, we enhance the model’s discriminative power by introducing two novel mechanisms for acquisition-time-specific temporal positional encodings and multiple learnable class tokens. The effect of all novel design choices is evaluated through an extensive ablation study. Our proposed architecture achieves state-of-the-art performance, surpassing previous approaches by a significant margin in three publicly available SITS semantic segmentation and classification datasets. All model, training and evaluation codes are made publicly available to facilitate further research.
arxiv情報
著者 | Michail Tarasiou,Erik Chavez,Stefanos Zafeiriou |
発行日 | 2023-04-14 09:56:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI