Large Language Models Synergize with Automated Machine Learning

要約

最近、大規模言語モデル (LLM) によるプログラム合成の人気が高まっています。
ただし、機械学習 (ML) タスクのプログラム合成には依然として大きな課題があります。
この論文では、LLM と自動機械学習 (autoML) を組み合わせて、ML プログラムをターゲットとした新しい形式のプログラム合成を検討します。
具体的には、ML タスクのテキスト記述のみを利用して、データの準備からモデリング、後処理に至るまで、ML ワークフロー全体のコードの生成と最適化を完全に自動化することを目標としています。
ML プログラムの長さと多様性を管理するために、各 ML プログラムをより小さく管理しやすい部分に分割することを提案します。
各部分は、互換性を慎重に考慮して、LLM によって個別に生成されます。
互換性を確保するために、ML プログラムのテスト手法を設計します。
通常、バイナリ評価 (正しいか正しくないか) に依存する従来のプログラム合成とは異なり、ML プログラムの評価には、単なるバイナリ判断以上のものが必要です。
私たちのアプローチは、これらのプログラムの数値評価と最適化を自動化し、autoML 技術を通じて最適な候補を選択します。
さまざまな ML タスクにわたる実験では、ML プログラムを生成するタスク 12 個のうち 10 個で、私たちの方法が既存の方法を上回りました。
さらに、autoML により、生成された ML プログラムのパフォーマンスが大幅に向上します。
実験では、テキストによるタスクの説明が与えられると、私たちの手法 Text-to-ML は、完全な自律プロセスで完全かつ最適化された ML プログラムを生成します。
私たちのメソッドの実装は https://github.com/JLX0/llm-automl で入手できます。

要約(オリジナル)

Recently, program synthesis driven by large language models (LLMs) has become increasingly popular. However, program synthesis for machine learning (ML) tasks still poses significant challenges. This paper explores a novel form of program synthesis, targeting ML programs, by combining LLMs and automated machine learning (autoML). Specifically, our goal is to fully automate the generation and optimization of the code of the entire ML workflow, from data preparation to modeling and post-processing, utilizing only textual descriptions of the ML tasks. To manage the length and diversity of ML programs, we propose to break each ML program into smaller, manageable parts. Each part is generated separately by the LLM, with careful consideration of their compatibilities. To ensure compatibilities, we design a testing technique for ML programs. Unlike traditional program synthesis, which typically relies on binary evaluations (i.e., correct or incorrect), evaluating ML programs necessitates more than just binary judgments. Our approach automates the numerical evaluation and optimization of these programs, selecting the best candidates through autoML techniques. In experiments across various ML tasks, our method outperforms existing methods in 10 out of 12 tasks for generating ML programs. In addition, autoML significantly improves the performance of the generated ML programs. In experiments, given the textual task description, our method, Text-to-ML, generates the complete and optimized ML program in a fully autonomous process. The implementation of our method is available at https://github.com/JLX0/llm-automl.

arxiv情報

著者 Jinglue Xu,Jialong Li,Zhen Liu,Nagar Anthel Venkatesh Suryanarayanan,Guoyuan Zhou,Jia Guo,Hitoshi Iba,Kenji Tei
発行日 2024-09-09 15:04:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.PL, cs.SE パーマリンク