SimMAT: Exploring Transferability from Vision Foundation Models to Any Image Modality

要約

膨大な規模のデータでトレーニングされた ChatGPT や Sora などの基盤モデルは、革命的な社会的影響を与えました。
ただし、さまざまな分野のセンサーにとって、強力な基礎モデルをトレーニングするために同様のスケールの自然画像を収集することは非常に困難です。
この目的を達成するために、この研究では、未解決の問題、つまり自然な RGB 画像でトレーニングされた視覚基盤モデルから、異なる物理的特性 (偏光など) の他の画像モダリティへの移行可能性を研究するためのシンプルで効果的なフレームワーク SimMAT を提示します。
SimMAT は、モダリティに依存しない転送層 (MAT) と事前トレーニングされた基礎モデルで構成されます。
SimMAT を代表的なビジョン基盤モデル Segment Anything Model (SAM) に適用して、評価された新しい画像モダリティをサポートします。
関連するベンチマークがないことを考慮して、転移学習のパフォーマンスを評価するための新しいベンチマークを構築します。
私たちの実験では、他のセンサーのパフォーマンスを向上させるために、視覚基盤モデルを転送することの興味深い可能性を確認しています。
具体的には、SimMAT は、評価されたモダリティのセグメンテーション パフォーマンス (mIoU) を平均 22.15% から 53.88% に向上させることができ、一貫して他のベースラインを上回ります。
私たちは、SimMAT がクロスモーダル転移学習の認識を高め、さまざまな分野に利益をもたらし、ビジョン基盤モデルでより良い結果をもたらすことを期待しています。

要約(オリジナル)

Foundation models like ChatGPT and Sora that are trained on a huge scale of data have made a revolutionary social impact. However, it is extremely challenging for sensors in many different fields to collect similar scales of natural images to train strong foundation models. To this end, this work presents a simple and effective framework SimMAT to study an open problem: the transferability from vision foundation models trained on natural RGB images to other image modalities of different physical properties (e.g., polarization). SimMAT consists of a modality-agnostic transfer layer (MAT) and a pretrained foundation model. We apply SimMAT to a representative vision foundation model Segment Anything Model (SAM) to support any evaluated new image modality. Given the absence of relevant benchmarks, we construct a new benchmark to evaluate the transfer learning performance. Our experiments confirm the intriguing potential of transferring vision foundation models in enhancing other sensors’ performance. Specifically, SimMAT can improve the segmentation performance (mIoU) from 22.15% to 53.88% on average for evaluated modalities and consistently outperforms other baselines. We hope that SimMAT can raise awareness of cross-modal transfer learning and benefit various fields for better results with vision foundation models.

arxiv情報

著者 Chenyang Lei,Liyi Chen,Jun Cen,Xiao Chen,Zhen Lei,Felix Heide,Ziwei Liu,Qifeng Chen,Zhaoxiang Zhang
発行日 2024-09-12 14:38:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク