The Value of Out-of-Distribution Data

要約

より多くのデータは、タスクを一般化するのに役立ちます。
ただし、実際のデータセットには、分布外 (OOD) データが含まれる場合があります。
これは、クラス内の変動性などの異質性の形で発生する可能性がありますが、時間的なシフトや概念のドリフトの形でも発生する可能性があります。
このような問題の直感に反する現象を示します。タスクの一般化エラーは、OOD サンプル数の非単調関数になる可能性があります。
少数の OOD サンプルは一般化を改善できますが、OOD サンプルの数がしきい値を超えると、一般化エラーが悪化する可能性があります。
また、どのサンプルが OOD であるかがわかっている場合、ターゲット サンプルと OOD サンプルの間に重み付けされた目的を使用すると、汎化誤差が単調に減少することが保証されることも示します。
合成データセットで線形分類器を使用し、CIFAR-10 で中規模のニューラル ネットワークを使用して、この問題を実証および分析します。

要約(オリジナル)

More data helps us generalize to a task. But real datasets can contain out-of-distribution (OOD) data; this can come in the form of heterogeneity such as intra-class variability but also in the form of temporal shifts or concept drifts. We demonstrate a counter-intuitive phenomenon for such problems: generalization error of the task can be a non-monotonic function of the number of OOD samples; a small number of OOD samples can improve generalization but if the number of OOD samples is beyond a threshold, then the generalization error can deteriorate. We also show that if we know which samples are OOD, then using a weighted objective between the target and OOD samples ensures that the generalization error decreases monotonically. We demonstrate and analyze this issue using linear classifiers on synthetic datasets and medium-sized neural networks on CIFAR-10.

arxiv情報

著者 Ashwin De Silva,Rahul Ramesh,Carey E. Priebe,Pratik Chaudhari,Joshua T. Vogelstein
発行日 2022-08-23 13:41:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, stat.ML パーマリンク