DataAssist: A Machine Learning Approach to Data Cleaning and Preparation

要約

現在の自動機械学習 (ML) ツールはモデル中心であり、モデルの選択とパラメーターの最適化に重点を置いています。
ただし、データ分析の時間の大部分はデータのクリーニングとラングリングに費やされており、使用できるツールは限られています。
ここでは、ML に基づいた方法を使用してデータセットの品質を向上させる、自動化されたデータの準備とクリーニングのプラットフォームである DataAssist を紹介します。
DataAssist が、ユーザーが選択した変数の視覚化の生成、データ注釈の統合、異常除去の提案、データの前処理など、探索的なデータ分析とデータ クリーニングのためのパイプラインを提供することを示します。
エクスポートされたデータセットは、他の autoML ツールやユーザー指定のモデルと簡単に統合して、ダウンストリーム分析を行うことができます。
当社のデータ中心ツールは、経済、ビジネス、予測アプリケーションなどのさまざまな分野に適用でき、データのクレンジングと準備にかかる時間を 50% 以上節約します。

要約(オリジナル)

Current automated machine learning (ML) tools are model-centric, focusing on model selection and parameter optimization. However, the majority of the time in data analysis is devoted to data cleaning and wrangling, for which limited tools are available. Here we present DataAssist, an automated data preparation and cleaning platform that enhances dataset quality using ML-informed methods. We show that DataAssist provides a pipeline for exploratory data analysis and data cleaning, including generating visualization for user-selected variables, unifying data annotation, suggesting anomaly removal, and preprocessing data. The exported dataset can be readily integrated with other autoML tools or user-specified model for downstream analysis. Our data-centric tool is applicable to a variety of fields, including economics, business, and forecasting applications saving over 50\% time of the time spent on data cleansing and preparation.

arxiv情報

著者 Kartikay Goyle,Quin Xie,Vakul Goyle
発行日 2023-07-14 01:50:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DB, cs.LG パーマリンク