CIFAR-10-Warehouse: Broad and More Realistic Testbeds in Model Generalization Analysis

要約

さまざまな目に見えない環境におけるモデルのパフォーマンスを分析することは、機械学習コミュニティにおける重要な研究課題です。
この問題を研究するには、環境の不一致を広範囲にカバーする配布外のテスト セットを使用してテストベッドを構築することが重要です。
ただし、既存のテストベッドは通常、ドメインの数が少ないか、画像の破損によって合成されており、現実世界での有効性を実証するアルゴリズムの設計を妨げています。
本稿では、画像検索エンジンや拡散モデルをさまざまな方法で利用して収集した180のデータセットからなるCIFAR-10-Warehouseを紹介します。
通常、データセットのサイズは 300 ~ 8,000 の画像で、自然画像、漫画、特定の色、または自然には現れないオブジェクトが含まれています。
CIFAR-10-W では、さまざまな配布外環境におけるドメインの汎化とモデルの精度予測という 2 つの汎化タスクの評価を強化し、理解を深めることを目指しています。
私たちは広範なベンチマークと比較実験を実施し、CIFAR-10-W がこれらのタスクに固有の新しくて興味深い洞察を提供することを示しています。
CIFAR-10-W から恩恵を受ける他の分野についても説明します。

要約(オリジナル)

Analyzing model performance in various unseen environments is a critical research problem in the machine learning community. To study this problem, it is important to construct a testbed with out-of-distribution test sets that have broad coverage of environmental discrepancies. However, existing testbeds typically either have a small number of domains or are synthesized by image corruptions, hindering algorithm design that demonstrates real-world effectiveness. In this paper, we introduce CIFAR-10-Warehouse, consisting of 180 datasets collected by prompting image search engines and diffusion models in various ways. Generally sized between 300 and 8,000 images, the datasets contain natural images, cartoons, certain colors, or objects that do not naturally appear. With CIFAR-10-W, we aim to enhance the evaluation and deepen the understanding of two generalization tasks: domain generalization and model accuracy prediction in various out-of-distribution environments. We conduct extensive benchmarking and comparison experiments and show that CIFAR-10-W offers new and interesting insights inherent to these tasks. We also discuss other fields that would benefit from CIFAR-10-W.

arxiv情報

著者 Xiaoxiao Sun,Xingjian Leng,Zijian Wang,Yang Yang,Zi Huang,Liang Zheng
発行日 2023-10-06 17:58:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク