Foundation Model-oriented Robustness: Robust Image Model Evaluation with Pretrained Models

要約

機械学習は有限のデータセットに対して顕著なパフォーマンスを示していますが、固定ベンチマークを上回るスコアが現実世界におけるモデルのパフォーマンスを十分に示すことができるかどうかについては、まだ議論の余地があります。
実際には、理想的な堅牢なモデルはおそらくオラクル (人間のユーザーなど) と同様に動作するため、優れた評価プロトコルはおそらくオラクルと比較してモデルの動作を評価することです。
この論文では、画像分類モデルのパフォーマンスを代理オラクル (つまり、基盤モデル) と比較して直接測定する、新しいロバスト性測定を紹介します。
さらに、ベンチマークの範囲を超えた評価を達成できる簡単な方法を設計します。
私たちの方法は、元のセット内のサンプルとは区別できるように十分に摂動された新しいサンプルで画像データセットを拡張しますが、依然として元のテスト画像が表す同じ画像ラベル構造内に境界があり、大規模なパラメータで事前学習された基礎モデルによって制約されます。
サンプルの量。
その結果、私たちの新しい方法は、オラクルの力によって範囲が限定されますが、固定ベンチマークや制約された摂動の制限を受けずに、モデルのロバスト性パフォーマンスを評価する新しい方法を提供します。
評価結果に加えて、生成されたデータも活用して、モデルの動作と新しい評価戦略を理解します。

要約(オリジナル)

Machine learning has demonstrated remarkable performance over finite datasets, yet whether the scores over the fixed benchmarks can sufficiently indicate the model’s performance in the real world is still in discussion. In reality, an ideal robust model will probably behave similarly to the oracle (e.g., the human users), thus a good evaluation protocol is probably to evaluate the models’ behaviors in comparison to the oracle. In this paper, we introduce a new robustness measurement that directly measures the image classification model’s performance compared with a surrogate oracle (i.e., a foundation model). Besides, we design a simple method that can accomplish the evaluation beyond the scope of the benchmarks. Our method extends the image datasets with new samples that are sufficiently perturbed to be distinct from the ones in the original sets, but are still bounded within the same image-label structure the original test image represents, constrained by a foundation model pretrained with a large amount of samples. As a result, our new method will offer us a new way to evaluate the models’ robustness performance, free of limitations of fixed benchmarks or constrained perturbations, although scoped by the power of the oracle. In addition to the evaluation results, we also leverage our generated data to understand the behaviors of the model and our new evaluation strategies.

arxiv情報

著者 Peiyan Zhang,Haoyang Liu,Chaozhuo Li,Xing Xie,Sunghun Kim,Haohan Wang
発行日 2024-05-16 12:02:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク