AutoDCWorkflow: LLM-based Data Cleaning Workflow Auto-Generation and Benchmark

要約

データ クリーニング ワークフローを自動生成するための大規模言語モデル (LLM) の推論機能を調査します。
データ クリーニング タスクを完了する LLM の能力を評価するために、LLM ベースの自動データ クリーニング ワークフロー (AutoDCWorkflow) のパイプラインを実装しました。これにより、データ クリーニング操作で LLM に、重複、欠損値、不整合という 3 種類のデータ品質の問題を修復するよう促します。
データ形式。
ダーティ テーブルと目的 (クエリとして表現) を指定すると、このパイプラインは、その目的とテーブルの作成に使用されるデータ クリーニング ワークフローに対処するのに十分な最小限のクリーンなテーブルを生成します。
計画プロセスには、LLM 主導の 3 つの主要なコンポーネントが含まれます。 (1) ターゲット列の選択: 目的に関連するターゲット列のセットを特定します。
(2) 列品質の検査: 各ターゲット列のデータ品質を評価し、操作目標としてデータ品質レポートを生成します。
(3) 演算と引数の生成: データ品質レポートの結果に基づいて、次の演算と引数を予測します。
さらに、さまざまな難易度のデータ クリーニングの目的に対処するワークフローを自動的に生成する LLM エージェントの機能を評価するデータ クリーニング ベンチマークを提案します。
ベンチマークは、目的、生のテーブル、クリーンなテーブル、データ クリーニング ワークフロー、および回答セットのコレクションとしての注釈付きデータセットで構成されます。
私たちの実験では、目的に基づいたデータ クリーニング ワークフローを自動生成する 3 つの LLM を評価しました。
結果は、LLM が微調整を必要とせずにデータ クリーニング ワークフローの計画と生成において良好に機能することを示しています。

要約(オリジナル)

We investigate the reasoning capabilities of large language models (LLMs) for automatically generating data-cleaning workflows. To evaluate LLMs’ ability to complete data-cleaning tasks, we implemented a pipeline for LLM-based Auto Data Cleaning Workflow (AutoDCWorkflow), prompting LLMs on data cleaning operations to repair three types of data quality issues: duplicates, missing values, and inconsistent data formats. Given a dirty table and a purpose (expressed as a query), this pipeline generates a minimal, clean table sufficient to address the purpose and the data cleaning workflow used to produce the table. The planning process involves three main LLM-driven components: (1) Select Target Columns: Identifies a set of target columns related to the purpose. (2) Inspect Column Quality: Assesses the data quality for each target column and generates a Data Quality Report as operation objectives. (3) Generate Operation & Arguments: Predicts the next operation and arguments based on the data quality report results. Additionally, we propose a data cleaning benchmark to evaluate the capability of LLM agents to automatically generate workflows that address data cleaning purposes of varying difficulty levels. The benchmark comprises the annotated datasets as a collection of purpose, raw table, clean table, data cleaning workflow, and answer set. In our experiments, we evaluated three LLMs that auto-generate purpose-driven data cleaning workflows. The results indicate that LLMs perform well in planning and generating data-cleaning workflows without the need for fine-tuning.

arxiv情報

著者 Lan Li,Liri Fang,Vetle I. Torvik
発行日 2024-12-09 18:13:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.DB パーマリンク