要約
フューショット画像分類器は、最小限の監視と限られたデータで新しいデータを認識して分類するように設計されていますが、多くの場合、偽のバイアスとして知られる、クラス間の偽の相関と偽の属性への依存が見られます。
一般に、特定のサンプルには偽の相関が存在し、少数ショットの分類器はそれらに起因する偽のバイアスの影響を受ける可能性があります。
スプリアスバイアスに対する少数ショット分類器の堅牢性を評価するための自動ベンチマーク システムが存在しません。
この論文では、スプリアスバイアスに対する少数ショット分類器のさまざまな程度の堅牢性を公正に実証および定量化するために、FewSTAB と呼ばれる体系的で厳密なベンチマーク フレームワークを提案します。
FewSTAB は、偏った属性を持つ少数ショット評価タスクを作成するため、予測に使用するとパフォーマンスが低下する可能性があります。
これらのタスクを構築するために、事前トレーニングされた視覚言語モデルに基づいた属性ベースのサンプル選択戦略を提案し、手動でデータセットをキュレーションする必要性を排除します。
これにより、FewSTAB は既存のテスト データを使用してスプリアス バイアスを自動的にベンチマークすることができます。
FewSTAB は、堅牢な分類器を構築するための新しい設計ガイドラインとともに、新しい次元での評価結果を提供します。
さらに、さまざまな程度のスプリアス バイアスのベンチマークを行うことができ、さまざまな程度の堅牢性の設計が可能になります。
その有効性は、3 つのデータセットにわたる 10 の少数ショット学習方法の実験を通じて実証されています。
私たちのフレームワークが、堅牢な少数ショット分類器の新しい設計を刺激できることを願っています。
私たちのコードは https://github.com/gtzheng/FewSTAB で入手できます。
要約(オリジナル)
Few-shot image classifiers are designed to recognize and classify new data with minimal supervision and limited data but often show reliance on spurious correlations between classes and spurious attributes, known as spurious bias. Spurious correlations commonly hold in certain samples and few-shot classifiers can suffer from spurious bias induced from them. There is an absence of an automatic benchmarking system to assess the robustness of few-shot classifiers against spurious bias. In this paper, we propose a systematic and rigorous benchmark framework, termed FewSTAB, to fairly demonstrate and quantify varied degrees of robustness of few-shot classifiers to spurious bias. FewSTAB creates few-shot evaluation tasks with biased attributes so that using them for predictions can demonstrate poor performance. To construct these tasks, we propose attribute-based sample selection strategies based on a pre-trained vision-language model, eliminating the need for manual dataset curation. This allows FewSTAB to automatically benchmark spurious bias using any existing test data. FewSTAB offers evaluation results in a new dimension along with a new design guideline for building robust classifiers. Moreover, it can benchmark spurious bias in varied degrees and enable designs for varied degrees of robustness. Its effectiveness is demonstrated through experiments on ten few-shot learning methods across three datasets. We hope our framework can inspire new designs of robust few-shot classifiers. Our code is available at https://github.com/gtzheng/FewSTAB.
arxiv情報
著者 | Guangtao Zheng,Wenqian Ye,Aidong Zhang |
発行日 | 2024-09-04 17:07:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google