Robustness Analysis on Foundational Segmentation Models

要約

計算リソースの増加とデータへのアクセスのしやすさにより、自己教師あり学習または半教師あり学習を使用して大量のデータでトレーニングされる大規模な深層学習モデルが増加しています。
これらの「基礎」モデルは、多くの場合、ターゲット データセットでのトレーニングをほとんどまたはまったく行わずに、分類、オブジェクト検出、セグメンテーションなどのさまざまな下流タスクに適応されます。
この研究では、セグメンテーション タスクの Visual Foundation Model (VFM) の堅牢性分析を実行し、より小規模な教師ありモデルと比較します。
私たちは、現実世界の分布シフトの摂動に対する堅牢性に重点を置いています。COCO と ADE20K の 2 つの異なるデータセットを使用し、それぞれ 5 つの重大度レベルを持つ 17 の異なる摂動を使用して、4 つの最先端のセグメンテーション アーキテクチャをベンチマークします。
(1) VFM は圧縮ベースの破損に対して堅牢ではない、(2) 選択された VFM は、非 VFM モデルと比較して大幅に優れたパフォーマンスや堅牢性を示すわけではないものの、ゼロショット評価では競争力のある堅牢性を維持していることなど、興味深い洞察が得られました。
特に、非 VFM が監視下にあり、(3) 選択された VFM が特定のカテゴリのオブジェクトに対して優れた回復力を示している場合、これはおそらく、非 VFM モデルに通常欠けている機能であるオープン語彙トレーニング パラダイムによるものです。
私たちは、提案された堅牢性評価によって基礎モデルに新たな要件が導入され、その結果、そのパフォーマンスを向上させるためのさらなる研究が引き起こされると考えています。

要約(オリジナル)

Due to the increase in computational resources and accessibility of data, an increase in large, deep learning models trained on copious amounts of data using self-supervised or semi-supervised learning have emerged. These ‘foundation’ models are often adapted to a variety of downstream tasks like classification, object detection, and segmentation with little-to-no training on the target dataset. In this work, we perform a robustness analysis of Visual Foundation Models (VFMs) for segmentation tasks and compare them to supervised models of smaller scale. We focus on robustness against real-world distribution shift perturbations.We benchmark four state-of-the-art segmentation architectures using 2 different datasets, COCO and ADE20K, with 17 different perturbations with 5 severity levels each. We find interesting insights that include (1) VFMs are not robust to compression-based corruptions, (2) while the selected VFMs do not significantly outperform or exhibit more robustness compared to non-VFM models, they remain competitively robust in zero-shot evaluations, particularly when non-VFM are under supervision and (3) selected VFMs demonstrate greater resilience to specific categories of objects, likely due to their open-vocabulary training paradigm, a feature that non-VFM models typically lack. We posit that the suggested robustness evaluation introduces new requirements for foundational models, thus sparking further research to enhance their performance.

arxiv情報

著者 Madeline Chantry Schiappa,Sachidanand VS,Yunhao Ge,Ondrej Miksik,Yogesh S. Rawat,Vibhav Vineet
発行日 2023-06-15 16:59:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク