Channel Vision Transformers: An Image Is Worth C x 16 x 16 Words

要約

Vision Transformer (ViT) は、現代のコンピューター ビジョンの領域における強力なアーキテクチャとして登場しました。
ただし、顕微鏡や衛星画像などの特定の画像分野での応用には特有の課題があります。
これらのドメインでは、多くの場合、画像に複数のチャネルが含まれており、それぞれが意味的に異なる独立した情報を伝えます。
さらに、入力チャネルはトレーニングまたはテスト中に高密度で利用できない可能性があるため、モデルは入力チャネルの疎性に対する堅牢性を実証する必要があります。
この論文では、入力チャネル全体にわたる推論を強化する ViT アーキテクチャへの変更を提案し、テスト中に部分的なチャネルのみが提示される場合の堅牢性を確保するための追加の正則化手法として階層チャネル サンプリング (HCS) を導入します。
私たちが提案するモデル ChannelViT は、各入力チャネルから独立してパッチ トークンを構築し、位置エンベディングと同様に、パッチ トークンに追加される学習可能なチャネル エンベディングを利用します。
ImageNet、JUMP-CP (顕微鏡細胞イメージング)、および So2Sat (衛星イメージング) での ChannelViT のパフォーマンスを評価します。
私たちの結果は、テスト中に入力チャネルのサブセットが使用された場合でも、ChannelViT が分類タスクで ViT よりも優れたパフォーマンスを示し、適切に一般化できることを示しています。
私たちの実験を通じて、HCS は採用されたアーキテクチャに依存しない強力な正則化機能であることが証明され、堅牢な ViT トレーニングのための簡単な手法であることがわかりました。
最後に、トレーニング中にすべてのチャネルへのアクセスが制限されている場合でも、ChannelViT は効果的に一般化することがわかり、センサーがまばらな現実世界の条件下でのマルチチャネル イメージングの可能性を強調しています。

要約(オリジナル)

Vision Transformer (ViT) has emerged as a powerful architecture in the realm of modern computer vision. However, its application in certain imaging fields, such as microscopy and satellite imaging, presents unique challenges. In these domains, images often contain multiple channels, each carrying semantically distinct and independent information. Furthermore, the model must demonstrate robustness to sparsity in input channels, as they may not be densely available during training or testing. In this paper, we propose a modification to the ViT architecture that enhances reasoning across the input channels and introduce Hierarchical Channel Sampling (HCS) as an additional regularization technique to ensure robustness when only partial channels are presented during test time. Our proposed model, ChannelViT, constructs patch tokens independently from each input channel and utilizes a learnable channel embedding that is added to the patch tokens, similar to positional embeddings. We evaluate the performance of ChannelViT on ImageNet, JUMP-CP (microscopy cell imaging), and So2Sat (satellite imaging). Our results show that ChannelViT outperforms ViT on classification tasks and generalizes well, even when a subset of input channels is used during testing. Across our experiments, HCS proves to be a powerful regularizer, independent of the architecture employed, suggesting itself as a straightforward technique for robust ViT training. Lastly, we find that ChannelViT generalizes effectively even when there is limited access to all channels during training, highlighting its potential for multi-channel imaging under real-world conditions with sparse sensors.

arxiv情報

著者 Yujia Bao,Srinivasan Sivanandan,Theofanis Karaletsos
発行日 2023-10-06 17:52:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク