Assessing Dataset Quality Through Decision Tree Characteristics in Autoencoder-Processed Spaces

要約

このペーパーでは、機械学習分類タスクにおけるデータセットの品質評価の重要な側面を詳しく掘り下げます。
さまざまな複雑さレベルの分類タスク用にそれぞれ作成された 9 つの異なるデータセットを活用して、データセットの品質がモデルのトレーニングとパフォーマンスに与える重大な影響を示します。
さらに、特定のデータ条件を表すために設計された 2 つの追加データセットを紹介します。1 つはエントロピーを最大化し、もう 1 つは高い冗長性を示します。
私たちの調査結果は、高性能の機械学習モデルを実現するには、適切な特徴選択、適切なデータ量、データ品質の重要性を強調しています。
研究者や専門家を支援するために、私たちはデータセットの品質評価のための包括的なフレームワークを提案します。これは、手元にあるデータセットが十分であり、特定のタスクに必要な品質であるかどうかを評価するのに役立ちます。
この研究は、データ評価の実践に関する貴重な洞察を提供し、より正確で堅牢な機械学習モデルの開発に貢献します。

要約(オリジナル)

In this paper, we delve into the critical aspect of dataset quality assessment in machine learning classification tasks. Leveraging a variety of nine distinct datasets, each crafted for classification tasks with varying complexity levels, we illustrate the profound impact of dataset quality on model training and performance. We further introduce two additional datasets designed to represent specific data conditions – one maximizing entropy and the other demonstrating high redundancy. Our findings underscore the importance of appropriate feature selection, adequate data volume, and data quality in achieving high-performing machine learning models. To aid researchers and practitioners, we propose a comprehensive framework for dataset quality assessment, which can help evaluate if the dataset at hand is sufficient and of the required quality for specific tasks. This research offers valuable insights into data assessment practices, contributing to the development of more accurate and robust machine learning models.

arxiv情報

著者 Szymon Mazurek,Maciej Wielgosz
発行日 2023-06-27 11:33:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク