要約
このホワイト ペーパーでは、Temporo-Spatial Vision Transformer (TSViT) を紹介します。これは、ViT (Vision Transformer) に基づく一般的な衛星画像時系列 (SITS) 処理用の完全な注意モデルです。
TSViT は、SITS レコードを空間と時間で重複しないパッチに分割します。これらのパッチはトークン化され、その後因数分解された時間空間エンコーダーによって処理されます。
自然の画像とは対照的に、時間-空間因数分解はSITS処理にとってより直感的であり、この主張の実験的証拠を提示すると主張します。
さらに、取得時間固有の一時的な位置エンコーディングと複数の学習可能なクラス トークンの 2 つの新しいメカニズムを導入することにより、モデルの識別力を強化します。
すべての新しいデザインの選択の効果は、広範なアブレーション研究を通じて評価されます。
私たちが提案したアーキテクチャは、最先端のパフォーマンスを実現し、3 つの公開されている SITS セマンティック セグメンテーションおよび分類データセットで以前のアプローチを大幅に上回っています。
すべてのモデル、トレーニング、および評価コードは、さらなる研究を容易にするために公開されています。
要約(オリジナル)
In this paper we introduce the Temporo-Spatial Vision Transformer (TSViT), a fully-attentional model for general Satellite Image Time Series (SITS) processing based on the Vision Transformer (ViT). TSViT splits a SITS record into non-overlapping patches in space and time which are tokenized and subsequently processed by a factorized temporo-spatial encoder. We argue, that in contrast to natural images, a temporal-then-spatial factorization is more intuitive for SITS processing and present experimental evidence for this claim. Additionally, we enhance the model’s discriminative power by introducing two novel mechanisms for acquisition-time-specific temporal positional encodings and multiple learnable class tokens. The effect of all novel design choices is evaluated through an extensive ablation study. Our proposed architecture achieves state-of-the-art performance, surpassing previous approaches by a significant margin in three publicly available SITS semantic segmentation and classification datasets. All model, training and evaluation codes are made publicly available to facilitate further research.
arxiv情報
著者 | Michail Tarasiou,Erik Chavez,Stefanos Zafeiriou |
発行日 | 2023-01-26 13:03:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google