Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows?

要約

データ サイエンスとエンジニアリングのワークフローは、多くの場合、BigQuery、dbt、Airbyte などのツールを使用して、ウェアハウスからオーケストレーションまで複数の段階にまたがります。
ビジョン言語モデル (VLM) のマルチモーダルな理解とコード生成が進むにつれて、VLM ベースのエージェントが SQL クエリ、Python コード、および GUI 操作を生成することでこれらのワークフローを自動化できる可能性があります。
この自動化により、大規模なデータ分析へのアクセスを民主化しながら、専門家の生産性を向上させることができます。
このペーパーでは、本格的なコンピューター環境での 494 の現実世界のタスクを特徴とし、20 のエンタープライズ レベルのプロフェッショナル アプリケーションを組み込んだ、プロフェッショナルなデータ サイエンスとエンジニアリングのワークフローに焦点を当てた初のマルチモーダル エージェント ベンチマークである Spider2-V を紹介します。
これらのタスクは、実際の使用例から派生したもので、エンタープライズ データ ソフトウェア システムでコードを記述し、GUI を管理することによってデータ関連タスクを実行するマルチモーダル エージェントの能力を評価します。
現実的なシミュレーションと評価の簡素化のバランスを取るために、私たちはタスク設定の自動構成の開発と各タスクの評価指標の慎重な作成に多大な労力を費やしています。
さらに、これらのエンタープライズ データ ソフトウェア システムの包括的なドキュメントでマルチモーダル エージェントを補足します。
私たちの経験的評価により、既存の最先端の LLM/VLM ベースのエージェントは完全なデータ ワークフローを確実に自動化していないことが明らかになりました (成功率 14.0%)。
ステップバイステップのガイダンスがあっても、これらのエージェントは、きめ細かい知識集約的な GUI アクション (16.2%) やリモートのクラウドでホストされるワークスペース (10.6%) を必要とするタスクでは依然としてパフォーマンスが低下しています。
Spider2-V が、自律型マルチモーダル エージェントがデータ サイエンスとエンジニアリングのワークフローの自動化を変革する道を開くことを願っています。
コードとデータは https://spider2-v.github.io で入手できます。

要約(オリジナル)

Data science and engineering workflows often span multiple stages, from warehousing to orchestration, using tools like BigQuery, dbt, and Airbyte. As vision language models (VLMs) advance in multimodal understanding and code generation, VLM-based agents could potentially automate these workflows by generating SQL queries, Python code, and GUI operations. This automation can improve the productivity of experts while democratizing access to large-scale data analysis. In this paper, we introduce Spider2-V, the first multimodal agent benchmark focusing on professional data science and engineering workflows, featuring 494 real-world tasks in authentic computer environments and incorporating 20 enterprise-level professional applications. These tasks, derived from real-world use cases, evaluate the ability of a multimodal agent to perform data-related tasks by writing code and managing the GUI in enterprise data software systems. To balance realistic simulation with evaluation simplicity, we devote significant effort to developing automatic configurations for task setup and carefully crafting evaluation metrics for each task. Furthermore, we supplement multimodal agents with comprehensive documents of these enterprise data software systems. Our empirical evaluation reveals that existing state-of-the-art LLM/VLM-based agents do not reliably automate full data workflows (14.0% success). Even with step-by-step guidance, these agents still underperform in tasks that require fine-grained, knowledge-intensive GUI actions (16.2%) and involve remote cloud-hosted workspaces (10.6%). We hope that Spider2-V paves the way for autonomous multimodal agents to transform the automation of data science and engineering workflow. Our code and data are available at https://spider2-v.github.io.

arxiv情報

著者 Ruisheng Cao,Fangyu Lei,Haoyuan Wu,Jixuan Chen,Yeqiao Fu,Hongcheng Gao,Xinzhuang Xiong,Hanchong Zhang,Yuchen Mao,Wenjing Hu,Tianbao Xie,Hongshen Xu,Danyang Zhang,Sida Wang,Ruoxi Sun,Pengcheng Yin,Caiming Xiong,Ansong Ni,Qian Liu,Victor Zhong,Lu Chen,Kai Yu,Tao Yu
発行日 2024-07-15 17:54:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク