The Value of Out-of-Distribution Data

要約

より多くのデータがあれば、タスクに対する汎化が可能になると期待される。しかし、実際のデータセットには分布外(OOD)データが含まれることがある。これはクラス内変動のような不均質性の形で来ることもあるが、時間的シフトやコンセプトドリフトの形でも来ることがある。我々はこのような問題に対して、直感に反する現象を示す:タスクの汎化誤差はOODサンプル数の非単調関数となりうる。少数のOODサンプルは汎化を改善するが、OODサンプル数が閾値を越えると汎化誤差は悪化する。また、どのサンプルがOODであるかが分かっている場合、ターゲットとOODサンプルの間で重み付けした目的語を用いることで、汎化誤差が単調に減少することを示す。我々は、合成データセット上の線形分類器と、MNIST、CIFAR-10、CINIC-10、PACS、DomainNetなどの視覚ベンチマーク上の中規模ニューラルネットワークを用いてこの現象を実証し、分析し、データ増強、ハイパーパラメータ最適化、事前学習がこの動作に及ぼす影響を観察する。

要約(オリジナル)

More data is expected to help us generalize to a task. But real datasets can contain out-of-distribution (OOD) data; this can come in the form of heterogeneity such as intra-class variability but also in the form of temporal shifts or concept drifts. We demonstrate a counter-intuitive phenomenon for such problems: generalization error of the task can be a non-monotonic function of the number of OOD samples; a small number of OOD samples can improve generalization but if the number of OOD samples is beyond a threshold, then the generalization error can deteriorate. We also show that if we know which samples are OOD, then using a weighted objective between the target and OOD samples ensures that the generalization error decreases monotonically. We demonstrate and analyze this phenomenon using linear classifiers on synthetic datasets and medium-sized neural networks on vision benchmarks such as MNIST, CIFAR-10, CINIC-10, PACS, and DomainNet, and observe the effect data augmentation, hyperparameter optimization, and pre-training have on this behavior.

arxiv情報

著者 Ashwin De Silva,Rahul Ramesh,Carey E. Priebe,Pratik Chaudhari,Joshua T. Vogelstein
発行日 2022-10-06 10:12:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG, stat.ML パーマリンク