LLMs for Semi-Automated Data Science: Introducing CAAFE for Context-Aware Automated Feature Engineering

要約

自動機械学習 (AutoML) の分野が進歩するにつれて、ドメインの知識をこれらのシステムに組み込むことがますます重要になっています。
私たちは、大規模言語モデル (LLM) の力を利用してこれを行うためのアプローチを紹介します。
具体的には、表形式データセットの特徴エンジニアリング手法である Context-Aware Automated Feature Engineering (CAAFE) を導入します。これは、LLM を利用して、データセットの記述に基づいて表形式データセットに対して意味的に意味のある追加の特徴を繰り返し生成します。
このメソッドは、新しい機能を作成するための Python コードと、生成された機能のユーティリティの説明の両方を生成します。
方法論的に単純であるにもかかわらず、CAAFE は 14 のデータセットのうち 11 のデータセットでパフォーマンスを向上させ、すべてのデータセットで平均 ROC AUC パフォーマンスを 0.798 から 0.822 に向上させました。これは、データセットでロジスティック回帰の代わりにランダム フォレストを使用することによって達成された改善と同様です。
さらに、CAAFE は、生成された各特徴についてテキストによる説明を提供することで解釈可能です。
CAAFE は、データ サイエンス タスクにおけるより広範な半自動化への道を開き、AutoML システムの範囲をセマンティック AutoML に拡張できるコンテキスト認識ソリューションの重要性を強調します。
$\href{https://github.com/automl/CAAFE}{code}$、単純な $\href{https://colab.research.google.com/drive/1mCA8xOAJZ4MaB_alZvyARTMjhl6RZf0a}{demo}$ をリリースします
$\href{https://pypi.org/project/caafe/}{python\ package}$。

要約(オリジナル)

As the field of automated machine learning (AutoML) advances, it becomes increasingly important to incorporate domain knowledge into these systems. We present an approach for doing so by harnessing the power of large language models (LLMs). Specifically, we introduce Context-Aware Automated Feature Engineering (CAAFE), a feature engineering method for tabular datasets that utilizes an LLM to iteratively generate additional semantically meaningful features for tabular datasets based on the description of the dataset. The method produces both Python code for creating new features and explanations for the utility of the generated features. Despite being methodologically simple, CAAFE improves performance on 11 out of 14 datasets – boosting mean ROC AUC performance from 0.798 to 0.822 across all dataset – similar to the improvement achieved by using a random forest instead of logistic regression on our datasets. Furthermore, CAAFE is interpretable by providing a textual explanation for each generated feature. CAAFE paves the way for more extensive semi-automation in data science tasks and emphasizes the significance of context-aware solutions that can extend the scope of AutoML systems to semantic AutoML. We release our $\href{https://github.com/automl/CAAFE}{code}$, a simple $\href{https://colab.research.google.com/drive/1mCA8xOAJZ4MaB_alZvyARTMjhl6RZf0a}{demo}$ and a $\href{https://pypi.org/project/caafe/}{python\ package}$.

arxiv情報

著者 Noah Hollmann,Samuel Müller,Frank Hutter
発行日 2023-07-17 16:12:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク