Enhancing Feature Diversity Boosts Channel-Adaptive Vision Transformers

要約

マルチチャネル イメージング (MCI) には、従来の画像には存在しない有用な特徴表現をエンコードするための一連の課題が含まれています。
たとえば、2 つの異なる衛星からの画像には両方とも RGB チャネルが含まれている可能性がありますが、残りのチャネルは画像ソースごとに異なる場合があります。
したがって、MCI モデルはテスト時にさまざまなチャネル構成をサポートする必要があります。
最近の研究では、チャンネル構成を表すエンコーディングでピクセル情報を補完することにより、ビジョン トランスフォーマー (ViT) などの MCI 用の従来のビジュアル エンコーダーを拡張しました。
ただし、これらの方法は各チャネルを平等に扱います。つまり、各チャネル タイプの固有の特性が考慮されていないため、学習された特徴に不必要で潜在的に有害な冗長性が生じる可能性があります。
たとえば、RGB チャネルが常に存在する場合、他のチャネルは RGB チャネルではキャプチャできない情報の抽出に集中できます。
この目的のために、我々は、MCI-ViT モデルの学習された特徴の多様性を強化することを目的とした DiChaViT を提案します。
これは、トレーニング用のより明確なチャネル セットの選択を促進する新しいチャネル サンプリング戦略によって実現されます。
さらに、正則化および初期化手法を採用して、各チャネルから新しい情報が学習される可能性を高めます。
私たちの改善点の多くはアーキテクチャに依存せず、開発中の新しいアーキテクチャに組み込むことができます。
衛星顕微鏡データセットと細胞顕微鏡データセット、CHAMMI、JUMP-CP、および So2Sat の両方での実験では、DiChaViT が最先端技術と比較して 1.5 ~ 5.0% の向上をもたらしたと報告されています。
私たちのコードは https://github.com/chaudatascience/diverse_channel_vit で公開されています。

要約(オリジナル)

Multi-Channel Imaging (MCI) contains an array of challenges for encoding useful feature representations not present in traditional images. For example, images from two different satellites may both contain RGB channels, but the remaining channels can be different for each imaging source. Thus, MCI models must support a variety of channel configurations at test time. Recent work has extended traditional visual encoders for MCI, such as Vision Transformers (ViT), by supplementing pixel information with an encoding representing the channel configuration. However, these methods treat each channel equally, i.e., they do not consider the unique properties of each channel type, which can result in needless and potentially harmful redundancies in the learned features. For example, if RGB channels are always present, the other channels can focus on extracting information that cannot be captured by the RGB channels. To this end, we propose DiChaViT, which aims to enhance the diversity in the learned features of MCI-ViT models. This is achieved through a novel channel sampling strategy that encourages the selection of more distinct channel sets for training. Additionally, we employ regularization and initialization techniques to increase the likelihood that new information is learned from each channel. Many of our improvements are architecture agnostic and can be incorporated into new architectures as they are developed. Experiments on both satellite and cell microscopy datasets, CHAMMI, JUMP-CP, and So2Sat, report DiChaViT yields a 1.5 – 5.0% gain over the state-of-the-art. Our code is publicly available at https://github.com/chaudatascience/diverse_channel_vit.

arxiv情報

著者 Chau Pham,Bryan A. Plummer
発行日 2024-10-28 13:07:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク