要約
Large Language Model (LLM) ベースのエージェントは、多くのアプリケーションにわたって有効性を示しています。
ただし、長期にわたる相互接続されたタスクの解決、動的なデータ調整、およびドメインの専門知識が必要なデータ サイエンスのシナリオでの使用は依然として困難です。
これまでのアプローチは主に個々のタスクに焦点を当てていたため、完全なデータ サイエンス ワークフローを評価することが困難でした。
さらに、中間データのリアルタイムの変更を処理するのに苦労し、データ サイエンスの問題に固有の進化するタスクの依存関係に動的に適応することができません。
このペーパーでは、さまざまなデータ サイエンスの問題をエンドツーエンドで自動的に解決するように設計された LLM ベースのエージェントである Data Interpreter について説明します。
当社のデータ インタープリターには、次の 2 つの主要なモジュールが組み込まれています。1) 階層グラフ モデリング。複雑な問題を管理可能なサブ問題に分解し、動的なノード生成とグラフの最適化を可能にします。
2) プログラマブル ノード生成。各部分問題を改良および検証して、コード生成の結果と堅牢性を反復的に向上させる手法です。
広範な実験により、Data Interpreter の優位性が一貫して実証されています。
InfiAgent-DABench では、パフォーマンスが 25% 向上し、精度が 75.9% から 94.9% に向上しました。
機械学習とオープンエンド タスクの場合、パフォーマンスがそれぞれ 88% から 95%、60% から 97% 向上します。
さらに、MATH データセットでは、Data Interpreter は最先端のベースラインと比較して 26% 向上という驚くべきパフォーマンスを達成しました。
コードは https://github.com/geekan/MetaGPT で入手できます。
要約(オリジナル)
Large Language Model (LLM)-based agents have shown effectiveness across many applications. However, their use in data science scenarios requiring solving long-term interconnected tasks, dynamic data adjustments and domain expertise remains challenging. Previous approaches primarily focus on individual tasks, making it difficult to assess the complete data science workflow. Moreover, they struggle to handle real-time changes in intermediate data and fail to adapt dynamically to evolving task dependencies inherent to data science problems. In this paper, we present Data Interpreter, an LLM-based agent designed to automatically solve various data science problems end-to-end. Our Data Interpreter incorporates two key modules: 1) Hierarchical Graph Modeling, which breaks down complex problems into manageable subproblems, enabling dynamic node generation and graph optimization; and 2) Programmable Node Generation, a technique that refines and verifies each subproblem to iteratively improve code generation results and robustness. Extensive experiments consistently demonstrate the superiority of Data Interpreter. On InfiAgent-DABench, it achieves a 25% performance boost, raising accuracy from 75.9% to 94.9%. For machine learning and open-ended tasks, it improves performance from 88% to 95%, and from 60% to 97%, respectively. Moreover, on the MATH dataset, Data Interpreter achieves remarkable performance with a 26% improvement compared to state-of-the-art baselines. The code is available at https://github.com/geekan/MetaGPT.
arxiv情報
著者 | Sirui Hong,Yizhang Lin,Bang Liu,Bangbang Liu,Binhao Wu,Ceyao Zhang,Chenxing Wei,Danyang Li,Jiaqi Chen,Jiayi Zhang,Jinlin Wang,Li Zhang,Lingyao Zhang,Min Yang,Mingchen Zhuge,Taicheng Guo,Tuo Zhou,Wei Tao,Xiangru Tang,Xiangtao Lu,Xiawu Zheng,Xinbing Liang,Yaying Fei,Yuheng Cheng,Zhibin Gou,Zongze Xu,Chenglin Wu |
発行日 | 2024-10-15 15:52:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google