BudgetMLAgent: A Cost-Effective LLM Multi-Agent system for Automating Machine Learning Tasks

要約

大規模言語モデル (LLM) は、コード スニペットの生成などのさまざまなアプリケーションに優れていますが、複雑な機械学習 (ML) タスクのコードを生成するのに苦労することがよくあります。
既存の LLM シングル エージェント ベースのシステムは、タスクの複雑さに応じてさまざまなパフォーマンスを提供しますが、純粋に GPT-4 などの大規模で高価なモデルに依存しています。
私たちの調査により、Gemini-Pro、Mixtral、CodeLlama などの無料モデルや低コスト モデルは、単一エージェント設定では GPT-4 よりもはるかにパフォーマンスが悪いことが明らかになりました。
ML タスクを解決するためのコスト効率の高い LLM ベースのソリューションを開発するという動機で、プロファイリング、過去の観察の効率的な取得、LLM カスケード、および専門家への質問を使用した専門家の組み合わせを活用する LLM マルチエージェント ベースのシステムを提案します。

MLAgentBench ベンチマークでの ML エンジニアリング タスクの実証分析を通じて、無料モデル、つまりベース LLM として Gemini を使用し、カスケードおよびエキスパートで時折専門家に質問するために GPT-4 と組み合わせて、システムの有効性を実証します。
計画を立てることが求められます。
コストが 94.2\% 削減され (GPT-4 シングル エージェント システムのすべてのタスクの平均実行コスト 0.931 ドルから 0.054 ドルまで)、当社のシステムは GPT-4 と比較して平均成功率 32.95\% を向上させることができます。
4 つの単一エージェント システムでは、MLAgentBench のすべてのタスクの平均で 22.72\% の成功率が得られました。

要約(オリジナル)

Large Language Models (LLMs) excel in diverse applications including generation of code snippets, but often struggle with generating code for complex Machine Learning (ML) tasks. Although existing LLM single-agent based systems give varying performance depending on the task complexity, they purely rely on larger and expensive models such as GPT-4. Our investigation reveals that no-cost and low-cost models such as Gemini-Pro, Mixtral and CodeLlama perform far worse than GPT-4 in a single-agent setting. With the motivation of developing a cost-efficient LLM based solution for solving ML tasks, we propose an LLM Multi-Agent based system which leverages combination of experts using profiling, efficient retrieval of past observations, LLM cascades, and ask-the-expert calls. Through empirical analysis on ML engineering tasks in the MLAgentBench benchmark, we demonstrate the effectiveness of our system, using no-cost models, namely Gemini as the base LLM, paired with GPT-4 in cascade and expert to serve occasional ask-the-expert calls for planning. With 94.2\% reduction in the cost (from \$0.931 per run cost averaged over all tasks for GPT-4 single agent system to \$0.054), our system is able to yield better average success rate of 32.95\% as compared to GPT-4 single-agent system yielding 22.72\% success rate averaged over all the tasks of MLAgentBench.

arxiv情報

著者 Shubham Gandhi,Manasi Patwardhan,Lovekesh Vig,Gautam Shroff
発行日 2025-01-08 07:25:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T42, cs.AI, cs.CL, cs.LG, cs.MA, I.2.1 パーマリンク