Exploring the Impact of Dataset Statistical Effect Size on Model Performance and Data Sample Size Sufficiency

要約

十分な量の高品質データを持つことは、効果的な機械学習モデルをトレーニングする重要なイネーブラーです。
モデルのパフォーマンスをトレーニングして評価する前に、データセットの妥当性を効果的に決定できることは、実験的な設計やデータ収集に従事する人にとって不可欠なツールです。
ただし、それが必要になっているにもかかわらず、データの十分性を前向きに評価する能力は、とらえどころのない能力のままです。
ここでは、基本的な記述統計的測定が、結果のモデルのトレーニングにおいてデータセットがどれほど効果的であるかを示すことができるかどうかをよりよく確認するために行われた2つの実験について報告します。
私たちの機能の効果サイズを活用するこの作業は、最初に効果サイズと結果のモデルパフォーマンスの間に相関が存在するかどうかを調査します(クラス間の区別の大きさが分類子の結果として生じる成功と相関することを理論化します)。
次に、効果サイズの大きさが学習速度の収束速度に影響を与えるかどうかを調査します(効果サイズが大きいほど、モデルがより迅速に収束することを示し、サンプルサイズが必要であることを示します)。
私たちの結果は、これが適切なサンプルサイズや投影モデルのパフォーマンスを決定するための効果的なヒューリスティックではないことを示しているようであり、したがって、データの妥当性をより前向きに評価するために追加の作業が必要であることを示しています。

要約(オリジナル)

Having a sufficient quantity of quality data is a critical enabler of training effective machine learning models. Being able to effectively determine the adequacy of a dataset prior to training and evaluating a model’s performance would be an essential tool for anyone engaged in experimental design or data collection. However, despite the need for it, the ability to prospectively assess data sufficiency remains an elusive capability. We report here on two experiments undertaken in an attempt to better ascertain whether or not basic descriptive statistical measures can be indicative of how effective a dataset will be at training a resulting model. Leveraging the effect size of our features, this work first explores whether or not a correlation exists between effect size, and resulting model performance (theorizing that the magnitude of the distinction between classes could correlate to a classifier’s resulting success). We then explore whether or not the magnitude of the effect size will impact the rate of convergence of our learning rate, (theorizing again that a greater effect size may indicate that the model will converge more rapidly, and with a smaller sample size needed). Our results appear to indicate that this is not an effective heuristic for determining adequate sample size or projecting model performance, and therefore that additional work is still needed to better prospectively assess adequacy of data.

arxiv情報

著者 Arya Hatamian,Lionel Levine,Haniyeh Ehsani Oskouie,Majid Sarrafzadeh
発行日 2025-02-18 18:39:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク