要約
データに偽の相関が含まれている場合、ニューラル ネットワークは失敗する可能性があります。
この現象を理解するために、研究者は緩和方法を評価するための多数の偽相関ベンチマークを提案してきました。
ただし、これらのベンチマークはかなりの不一致を示しており、あるベンチマークでは最良の手法が別のベンチマークではパフォーマンスが低いことが観察されています。
私たちはこの不一致を調査し、メソッドを有意義に評価するためにベンチマークが満たすべき 3 つの要望を定義することによって、ベンチマークの妥当性を検査します。
私たちの結果は、ベンチマークと緩和策の両方に影響を及ぼします。特定のベンチマークはメソッドのパフォーマンスの意味のある尺度ではなく、いくつかのメソッドは広く使用するには十分に堅牢ではないことがわかりました。
私たちは、実践者が与えられた問題に最も類似したベンチマークを使用して方法を選択するための簡単なレシピを紹介します。
要約(オリジナル)
Neural networks can fail when the data contains spurious correlations. To understand this phenomenon, researchers have proposed numerous spurious correlations benchmarks upon which to evaluate mitigation methods. However, we observe that these benchmarks exhibit substantial disagreement, with the best methods on one benchmark performing poorly on another. We explore this disagreement, and examine benchmark validity by defining three desiderata that a benchmark should satisfy in order to meaningfully evaluate methods. Our results have implications for both benchmarks and mitigations: we find that certain benchmarks are not meaningful measures of method performance, and that several methods are not sufficiently robust for widespread use. We present a simple recipe for practitioners to choose methods using the most similar benchmark to their given problem.
arxiv情報
| 著者 | Samuel J. Bell,Diane Bouchacourt,Levent Sagun |
| 発行日 | 2024-09-06 11:05:26+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google