ID and OOD Performance Are Sometimes Inversely Correlated on Real-world Datasets

要約

いくつかの研究では、さまざまなモデルの分布内 (ID) と分布外 (OOD) のパフォーマンスを経験的に比較しています。
彼らは、コンピュータ ビジョンと NLP のベンチマークで頻繁に正の相関関係があることを報告しています。
驚くべきことに、彼らは必要なトレードオフを示唆する逆相関を決して観察しません。
これは、ID のパフォーマンスが OOD の一般化の代用として機能できるかどうかを判断するために重要です。
このホワイト ペーパーでは、ID と OOD のパフォーマンスの間に逆相関が実際のベンチマークで発生することを示しています。
モデルの選択が偏っているため、過去の研究では見逃される可能性がありました。
複数のトレーニング エポックとランダム シードからのモデルを使用して、WILDS-Camelyon17 データセットの例を示します。
私たちの観察結果は、ERM の目的に対するソリューションを多様化するレギュラーでトレーニングされたモデルで特に顕著です。
私たちは、過去の研究でなされた推奨事項と結論をニュアンスします。
(1) 高い OOD パフォーマンスには、ID パフォーマンスとのトレードオフが必要になる場合があります。(2) ID パフォーマンスだけに注目しても、最適な OOD パフォーマンスにはつながらない場合があります。
(3) 私たちの例は、経験的研究は既存の方法で達成可能なレジームを示すだけであることを思い出させます。

要約(オリジナル)

Several studies have empirically compared in-distribution (ID) and out-of-distribution (OOD) performance of various models. They report frequent positive correlations on benchmarks in computer vision and NLP. Surprisingly, they never observe inverse correlations suggesting necessary trade-offs. This matters to determine whether ID performance can serve as a proxy for OOD generalization. This paper shows that inverse correlations between ID and OOD performance do happen in real-world benchmarks. They could be missed in past studies because of a biased selection of models. We show an example on the WILDS-Camelyon17 dataset, using models from multiple training epochs and random seeds. Our observations are particularly striking with models trained with a regularizer that diversifies the solutions to the ERM objective. We nuance recommendations and conclusions made in past studies. (1) High OOD performance may sometimes require trading off ID performance.(2) Focusing on ID performance alone may not lead to optimal OOD performance: it can lead to diminishing and eventually negative returns in OOD performance. (3) Our example reminds that empirical studies only chart regimes achievable with existing methods: care is warranted in deriving prescriptive recommendations.

arxiv情報

著者 Damien Teney,Yong Lin,Seong Joon Oh,Ehsan Abbasnejad
発行日 2022-09-26 13:20:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク