ID and OOD Performance Are Sometimes Inversely Correlated on Real-world Datasets

要約

いくつかの研究では、さまざまなモデルの分布内 (ID) と分布外 (OOD) のパフォーマンスを経験的に比較しています。
彼らは、コンピュータ ビジョンと NLP のベンチマークで頻繁に正の相関関係があることを報告しています。
驚くべきことに、彼らは必要なトレードオフを示唆する逆相関を決して観察しません。
これは、ID のパフォーマンスが OOD の一般化の代用として機能できるかどうかを判断するために重要です。
この短い論文は、ID と OOD のパフォーマンスの間に逆相関が実際のベンチマークで発生することを示しています。
モデルの選択に偏りがあるため、過去の研究では見逃された可能性があります。
複数のトレーニング エポックとランダム シードからのモデルを使用して、WILDS-Camelyon17 データセットのパターンの例を示します。
私たちの観察結果は、ERM の目的に対するソリューションを多様化するレギュラーでトレーニングされたモデルで特に顕著です。
私たちは、過去の研究でなされた推奨事項と結論をニュアンスします。
(1) 高い OOD パフォーマンスには、ID パフォーマンスとのトレードオフが必要になる場合があります。
(2) ID パフォーマンスのみに焦点を当てると、最適な OOD パフォーマンスにつながらない場合があります。それは、OOD パフォーマンスの減少につながり、最終的にマイナスのリターンにつながる可能性があります。
(3) 私たちの例は、経験的研究は既存の方法で達成可能なレジームを示すだけであることを思い出させます。

要約(オリジナル)

Several studies have empirically compared in-distribution (ID) and out-of-distribution (OOD) performance of various models. They report frequent positive correlations on benchmarks in computer vision and NLP. Surprisingly, they never observe inverse correlations suggesting necessary trade-offs. This matters to determine whether ID performance can serve as a proxy for OOD generalization. This short paper shows that inverse correlations between ID and OOD performance do happen in real-world benchmarks. They may have been missed in past studies because of a biased selection of models. We show an example of the pattern on the WILDS-Camelyon17 dataset, using models from multiple training epochs and random seeds. Our observations are particularly striking on models trained with a regularizer that diversifies the solutions to the ERM objective. We nuance recommendations and conclusions made in past studies. (1) High OOD performance does sometimes require trading off ID performance. (2) Focusing on ID performance alone may not lead to optimal OOD performance: it can lead to diminishing and eventually negative returns in OOD performance. (3) Our example reminds that empirical studies only chart regimes achievable with existing methods: care is warranted in deriving prescriptive recommendations.

arxiv情報

著者 Damien Teney,Seong Joon Oh,Ehsan Abbasnejad
発行日 2022-09-01 17:27:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク