AutoKaggle: A Multi-Agent Framework for Autonomous Data Science Competitions

要約

表形式のデータを含むデータ サイエンスのタスクには、高度な問題解決アプローチを必要とする複雑な課題が存在します。
私たちは、データ サイエンティストが協調的なマルチエージェント システムを通じて日々のデータ パイプラインを完了するのを支援する、強力でユーザー中心のフレームワークである AutoKaggle を提案します。
AutoKaggle は、コードの実行、デバッグ、包括的な単体テストを組み合わせた反復開発プロセスを実装して、コードの正確さとロジックの一貫性を保証します。
このフレームワークは高度にカスタマイズ可能なワークフローを提供し、ユーザーが各フェーズに介入できるようにすることで、自動化されたインテリジェンスと人間の専門知識を統合します。
データ クリーニング、特徴エンジニアリング、モデリングの検証済み機能で構成される当社のユニバーサル データ サイエンス ツールキットがこのソリューションの基盤を形成し、一般的なタスクを合理化することで生産性を向上させます。
実際のアプリケーション シナリオでのデータ処理ワークフローをシミュレートするために、8 つの Kaggle コンペティションを選択しました。
評価結果は、AutoKaggle が典型的なデータ サイエンス パイプラインで 0.85 の検証提出率と 0.82 の総合スコアを達成し、複雑なデータ サイエンス タスクの処理における有効性と実用性を完全に証明していることを示しています。

要約(オリジナル)

Data science tasks involving tabular data present complex challenges that require sophisticated problem-solving approaches. We propose AutoKaggle, a powerful and user-centric framework that assists data scientists in completing daily data pipelines through a collaborative multi-agent system. AutoKaggle implements an iterative development process that combines code execution, debugging, and comprehensive unit testing to ensure code correctness and logic consistency. The framework offers highly customizable workflows, allowing users to intervene at each phase, thus integrating automated intelligence with human expertise. Our universal data science toolkit, comprising validated functions for data cleaning, feature engineering, and modeling, forms the foundation of this solution, enhancing productivity by streamlining common tasks. We selected 8 Kaggle competitions to simulate data processing workflows in real-world application scenarios. Evaluation results demonstrate that AutoKaggle achieves a validation submission rate of 0.85 and a comprehensive score of 0.82 in typical data science pipelines, fully proving its effectiveness and practicality in handling complex data science tasks.

arxiv情報

著者 Ziming Li,Qianbo Zang,David Ma,Jiawei Guo,Tuney Zheng,Minghao Liu,Xinyao Niu,Yue Wang,Jian Yang,Jiaheng Liu,Wanjun Zhong,Wangchunshu Zhou,Wenhao Huang,Ge Zhang
発行日 2024-10-29 17:26:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク