On Leakage in Machine Learning Pipelines

要約

機械学習 (ML) は、予測モデリングのための強力なツールを提供します。
ML の人気は、物理学やマーケティングからヘルスケアに至るまで、さまざまな分野に応用できるサンプルレベルの予測が期待できることに由来しています。
ただし、適切に実装および評価されていない場合、ML パイプラインにリークが含まれる可能性があり、通常はパフォーマンス推定が楽観的すぎて新しいデータに一般化できなくなります。
これは、経済的および社会的に深刻なマイナスの影響を与える可能性があります。
私たちの目的は、ML パイプラインの設計、実装、評価時に漏洩につながる原因に関連する理解を広げることです。
具体的な例を示しながら、ML パイプラインで発生する可能性のあるさまざまなタイプのリークの包括的な概要と議論を提供します。

要約(オリジナル)

Machine learning (ML) provides powerful tools for predictive modeling. ML’s popularity stems from the promise of sample-level prediction with applications across a variety of fields from physics and marketing to healthcare. However, if not properly implemented and evaluated, ML pipelines may contain leakage typically resulting in overoptimistic performance estimates and failure to generalize to new data. This can have severe negative financial and societal implications. Our aim is to expand understanding associated with causes leading to leakage when designing, implementing, and evaluating ML pipelines. Illustrated by concrete examples, we provide a comprehensive overview and discussion of various types of leakage that may arise in ML pipelines.

arxiv情報

著者 Leonard Sasse,Eliana Nicolaisen-Sobesky,Juergen Dukart,Simon B. Eickhoff,Michael Götz,Sami Hamdan,Vera Komeyer,Abhijit Kulkarni,Juha Lahnakoski,Bradley C. Love,Federico Raimondo,Kaustubh R. Patil
発行日 2023-11-07 18:06:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク