要約
機械学習(ML)はさまざまなドメインに革命をもたらし、いくつかの分野で予測機能を提供しています。
ただし、MLツールのアクセシビリティが向上しているため、多くの実践者は、深いMLの専門知識を欠いており、基礎となるアルゴリズムを完全に理解することなくユーザーフレンドリーなインターフェイスを利用して、「ボタンを押す」アプローチを採用しています。
このアプローチは利便性を提供しますが、結果の信頼性についての懸念を引き起こし、パフォーマンス評価が誤っているなどの課題につながります。
このペーパーでは、データリークと呼ばれるMLの重大な問題に対処します。そこでは、意図しない情報がトレーニングデータを汚染し、モデルのパフォーマンス評価に影響を与えます。
ユーザーは、理解が不足しているため、不注意に重要なステップを見落としている可能性があり、実際のシナリオでは保持されない楽観的なパフォーマンスの推定につながる可能性があります。
新しいデータの評価されたパフォーマンスと実際のパフォーマンスの間の不一致は大きな懸念事項です。
特に、このペーパーでは、MLのデータリークを分類し、特定の条件がMLワークフローを通じてどのように伝播できるかについて説明します。
さらに、データの漏れと対処される特定のタスクとの関係を調査し、転送学習での発生を調査し、標準の誘導MLとトランスダクティブMLフレームワークを比較します。
結論は、堅牢で信頼性の高いMLアプリケーションのデータリークに対処することの重要性を強調し、重要な調査結果を要約しています。
要約(オリジナル)
Machine Learning (ML) has revolutionized various domains, offering predictive capabilities in several areas. However, with the increasing accessibility of ML tools, many practitioners, lacking deep ML expertise, adopt a ‘push the button’ approach, utilizing user-friendly interfaces without a thorough understanding of underlying algorithms. While this approach provides convenience, it raises concerns about the reliability of outcomes, leading to challenges such as incorrect performance evaluation. This paper addresses a critical issue in ML, known as data leakage, where unintended information contaminates the training data, impacting model performance evaluation. Users, due to a lack of understanding, may inadvertently overlook crucial steps, leading to optimistic performance estimates that may not hold in real-world scenarios. The discrepancy between evaluated and actual performance on new data is a significant concern. In particular, this paper categorizes data leakage in ML, discussing how certain conditions can propagate through the ML workflow. Furthermore, it explores the connection between data leakage and the specific task being addressed, investigates its occurrence in Transfer Learning, and compares standard inductive ML with transductive ML frameworks. The conclusion summarizes key findings, emphasizing the importance of addressing data leakage for robust and reliable ML applications.
arxiv情報
著者 | Andrea Apicella,Francesco Isgrò,Roberto Prevete |
発行日 | 2025-06-02 10:53:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google