How to Benchmark Vision Foundation Models for Semantic Segmentation?

要約

最近のビジョン ファウンデーション モデル (VFM) は、さまざまなタスクで熟練していることが実証されていますが、セマンティック セグメンテーションのタスクを効果的に実行するには、教師ありの微調整が必​​要です。
現在のモデルを選択し、このタスクのための将来のモデル開発を導くためには、パフォーマンスのベンチマークを行うことが不可欠です。
標準化されたベンチマークがないため、比較が複雑になります。
したがって、このペーパーの主な目的は、セマンティック セグメンテーションに関して VFM のベンチマークをどのように行うべきかを研究することです。
そのために、さまざまな VFM がさまざまな設定で微調整され、パフォーマンス ランキングとトレーニング時間に対する個々の設定の影響が評価されます。
結果に基づいて、16×16 パッチ サイズとリニア デコーダを使用して VFM の ViT-B バリアントを微調整することをお勧めします。これらの設定は、より大きなモデル、より高度なデコーダ、より小さなパッチ サイズを使用することを代表するものであるため、
トレーニング時間は13倍以上短縮されました。
データセットやドメインの変化によってパフォーマンスのランキングが異なるため、トレーニングと評価に複数のデータセットを使用することも推奨されます。
一部の VFM で一般的なリニア プローブは、エンドツーエンドの微調整を表していないため、推奨されません。
このホワイトペーパーで推奨するベンチマーク設定により、セマンティック セグメンテーションのための VFM のパフォーマンス分析が可能になります。
このような分析の結果は、プロンプト可能なセグメンテーションを使用した事前トレーニングは有益ではない一方、抽象表現を使用したマスク画像モデリング (MIM) が非常に重要であり、使用される監視の種類よりもさらに重要であることを明らかにしています。
セマンティック セグメンテーション用に VFM を効率的に微調整するためのコードには、プロジェクト ページ (https://tue-mps.github.io/benchmark-vfm-ss/) からアクセスできます。

要約(オリジナル)

Recent vision foundation models (VFMs) have demonstrated proficiency in various tasks but require supervised fine-tuning to perform the task of semantic segmentation effectively. Benchmarking their performance is essential for selecting current models and guiding future model developments for this task. The lack of a standardized benchmark complicates comparisons. Therefore, the primary objective of this paper is to study how VFMs should be benchmarked for semantic segmentation. To do so, various VFMs are fine-tuned under various settings, and the impact of individual settings on the performance ranking and training time is assessed. Based on the results, the recommendation is to fine-tune the ViT-B variants of VFMs with a 16×16 patch size and a linear decoder, as these settings are representative of using a larger model, more advanced decoder and smaller patch size, while reducing training time by more than 13 times. Using multiple datasets for training and evaluation is also recommended, as the performance ranking across datasets and domain shifts varies. Linear probing, a common practice for some VFMs, is not recommended, as it is not representative of end-to-end fine-tuning. The benchmarking setup recommended in this paper enables a performance analysis of VFMs for semantic segmentation. The findings of such an analysis reveal that pretraining with promptable segmentation is not beneficial, whereas masked image modeling (MIM) with abstract representations is crucial, even more important than the type of supervision used. The code for efficiently fine-tuning VFMs for semantic segmentation can be accessed through the project page at: https://tue-mps.github.io/benchmark-vfm-ss/.

arxiv情報

著者 Tommie Kerssies,Daan de Geus,Gijs Dubbelman
発行日 2024-06-10 10:05:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO パーマリンク