When More is Less: Incorporating Additional Datasets Can Hurt Performance By Introducing Spurious Correlations

要約

機械学習では、より多くのデータを組み込むことが、モデルのパフォーマンスを向上させるための信頼できる戦略とみなされます。
この研究は、多くの場合、外部データセットの追加が結果として得られるモデルのパフォーマンスに悪影響を与える可能性があることを実証することで、その概念に疑問を投げかけています。
4 つの異なるオープンソース胸部 X 線データセットと 9 つの異なるラベルの組み合わせにわたる大規模な実証研究では、設定の 43% で、2 つの病院からのデータでトレーニングされたモデルの最悪のグループ精度が両方の病院よりも低いことが実証されました。
単一の病院のデータのみでトレーニングされたモデルよりも優れています。
この驚くべき結果は、追加された病院によってトレーニング分布がテスト分布により似たものになったにもかかわらず発生します。
この現象は、病院特有の画像アーチファクトにより、病気と病院の間に現れる偽の相関関係から生じると説明します。
複数のデータセットでトレーニングするときに、データを追加することによる明白な利点と、導入された偽の相関による目に見えないコストとの間で遭遇するトレードオフを強調します。
場合によっては、データセットのバランスをとることで偽の相関を除去し、パフォーマンスを向上させることができますが、それが常に効果的な戦略であるとは限りません。
これらの結果を説明するのに役立つように、偽相関に関する文献内で結果を文脈化します。
私たちの実験は、特に医療画像などの偽相関のリスクがある設定では、機械学習モデルのトレーニング データを選択する際に注意を払うことの重要性を強調しています。
ここで概説したリスクは、将来の研究と実践において慎重なデータ選択とモデル評価の必要性を浮き彫りにしています。

要約(オリジナル)

In machine learning, incorporating more data is often seen as a reliable strategy for improving model performance; this work challenges that notion by demonstrating that the addition of external datasets in many cases can hurt the resulting model’s performance. In a large-scale empirical study across combinations of four different open-source chest x-ray datasets and 9 different labels, we demonstrate that in 43% of settings, a model trained on data from two hospitals has poorer worst group accuracy over both hospitals than a model trained on just a single hospital’s data. This surprising result occurs even though the added hospital makes the training distribution more similar to the test distribution. We explain that this phenomenon arises from the spurious correlation that emerges between the disease and hospital, due to hospital-specific image artifacts. We highlight the trade-off one encounters when training on multiple datasets, between the obvious benefit of additional data and insidious cost of the introduced spurious correlation. In some cases, balancing the dataset can remove the spurious correlation and improve performance, but it is not always an effective strategy. We contextualize our results within the literature on spurious correlations to help explain these outcomes. Our experiments underscore the importance of exercising caution when selecting training data for machine learning models, especially in settings where there is a risk of spurious correlations such as with medical imaging. The risks outlined highlight the need for careful data selection and model evaluation in future research and practice.

arxiv情報

著者 Rhys Compton,Lily Zhang,Aahlad Puli,Rajesh Ranganath
発行日 2023-08-08 17:58:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク