要約
タイトル:不均衡データにおけるデータ拡張の機能理解に向けて
要約:
– データ拡張は、多くの現代の機械学習トレーニングパイプラインの基礎であるが、その動作メカニズムは明確に理解されていない。
– データ拡張に関する研究は、既存の技術の改善、ニューラルネットワークのオーバーフィットの文脈での正則化効果の検証、および特徴の影響を調べることに重点が置かれてきた。しかし、本研究では、監視された不均衡データの分類で一般的に使用される畳み込みニューラルネットワーク、サポートベクターマシン、およびロジスティック回帰モデルについて全体的な調査を行い、その効果を調べる。
– この研究は、3つの画像データセットと5つの表形式のデータセットでテストを行い、不均衡なデータに適用された場合、データ拡張はモデルの重み、サポートベクトル、および特徴選択に重要な変化をもたらすことを示している。
– さらに、グローバルなメトリックであるバランス精度やF1スコアなどの改善は相対的に少なく、データの分散を容易にすることによって、機械学習モデルがラベルとデータの変化を関連付けることができるため、データ拡張が機能すると仮説を立てる。
– モデルがラベルを予測するために認識する必要がある特徴振幅の範囲を多様化することにより、データ拡張は、不均衡データで学習する場合にモデルの汎化能力を向上させる。
要約(オリジナル)
Data augmentation forms the cornerstone of many modern machine learning training pipelines; yet, the mechanisms by which it works are not clearly understood. Much of the research on data augmentation (DA) has focused on improving existing techniques, examining its regularization effects in the context of neural network over-fitting, or investigating its impact on features. Here, we undertake a holistic examination of the effect of DA on three different classifiers, convolutional neural networks, support vector machines, and logistic regression models, which are commonly used in supervised classification of imbalanced data. We support our examination with testing on three image and five tabular datasets. Our research indicates that DA, when applied to imbalanced data, produces substantial changes in model weights, support vectors and feature selection; even though it may only yield relatively modest changes to global metrics, such as balanced accuracy or F1 measure. We hypothesize that DA works by facilitating variances in data, so that machine learning models can associate changes in the data with labels. By diversifying the range of feature amplitudes that a model must recognize to predict a label, DA improves a model’s capacity to generalize when learning with imbalanced data.
arxiv情報
著者 | Damien A. Dablain,Nitesh V. Chawla |
発行日 | 2023-04-12 15:01:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI