GPT for Semi-Automated Data Science: Introducing CAAFE for Context-Aware Automated Feature Engineering

要約

タイトル:文脈に応じた自動特徴量生成のためのGPTを利用した半自動データサイエンス:CAAFEの紹介

要約:
– AutoMLの分野が進歩するにつれ、これらのシステムにドメイン知識を含めることがますます重要になっています。
– この論文では、大規模言語モデル(LLM)の力を活用して、ドメイン知識を含めたアプローチを紹介します。
– このアプローチでは、文脈に応じた自動特徴量生成(CAAFE)という、タブロー型のデータセットのための特徴量生成手法を提唱しており、LLMを使用してデータセットの説明に基づいて追加の意味のある特徴量を生成します。
– この方法は、新しい特徴量を作成するPythonコードと、生成された特徴量の有用性に関する説明の両方を生成します。CAAFEは、14つのデータセットのうち11つでパフォーマンスを向上させ、2つで同率となり、1つで負けます。全てのデータセットで平均ROC AUCパフォーマンスを0.798から0.822にブーストします。
– さらに、この手法は、生成された特徴量の理由を提供するテキスト説明を提供することで、価値あるインサイトを提供します。
– CAAFEは、データサイエンスタスクにおけるより広範な(半)自動化の道を開き、AutoMLシステムの範囲を拡大する文脈に応じた解決策の重要性を強調します。
– 再現性のために、著者らはコードと簡単なデモをリリースしています。

要約(オリジナル)

As the field of automated machine learning (AutoML) advances, it becomes increasingly important to include domain knowledge within these systems. We present an approach for doing so by harnessing the power of large language models (LLMs). Specifically, we introduce Context-Aware Automated Feature Engineering (CAAFE), a feature engineering method for tabular datasets that utilizes an LLM to generate additional semantically meaningful features for tabular datasets based on their descriptions. The method produces both Python code for creating new features and explanations for the utility of the generated features. Despite being methodologically simple, CAAFE enhances performance on 11 out of 14 datasets, ties on 2 and looses on 1 – boosting mean ROC AUC performance from 0.798 to 0.822 across all datasets. On the evaluated datasets, this improvement is similar to the average improvement achieved by using a random forest (AUC 0.782) instead of logistic regression (AUC 0.754). Furthermore, our method offers valuable insights into the rationale behind the generated features by providing a textual explanation for each generated feature. CAAFE paves the way for more extensive (semi-)automation in data science tasks and emphasizes the significance of context-aware solutions that can extend the scope of AutoML systems. For reproducability, we release our code and a simple demo.

arxiv情報

著者 Noah Hollmann,Samuel Müller,Frank Hutter
発行日 2023-05-05 09:58:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI パーマリンク