Measuring Data Science Automation: A Survey of Evaluation Tools for AI Assistants and Agents

要約

データサイエンスは、意思決定プロセスをサポートするために、データから洞察を抽出することを目的としています。
最近、大規模な言語モデル(LLM)は、データサイエンスのアシスタントとして、アイデア、テクニック、小さなコードスニペットを提案すること、または結果とレポートの解釈のためにますます使用されています。
現在、一部のデータサイエンスアクティビティの適切な自動化は、LLMエージェントの台頭、つまり、コードの実行や知識ベースなど、追加のアフォーダンスを備えたLLMを搭載したAIシステムを、自己指向のアクションを実行し、デジタル環境と対話することによって約束されています。
この論文では、データサイエンスに関するLLMアシスタントとエージェントの評価を調査します。
(1)目標指向の活動の小さなサブセットに支配的な焦点が焦点を当てており、データ管理と探索的活動をほとんど無視しています。
(2)人間とのコラボレーションの中間レベルを考慮せずに、純粋な支援または完全に自律的なエージェントに集中する。
(3)人間の代替に重点を置くため、タスク変換のおかげで、より高いレベルの自動化の可能性を無視します。

要約(オリジナル)

Data science aims to extract insights from data to support decision-making processes. Recently, Large Language Models (LLMs) are increasingly used as assistants for data science, by suggesting ideas, techniques and small code snippets, or for the interpretation of results and reporting. Proper automation of some data-science activities is now promised by the rise of LLM agents, i.e., AI systems powered by an LLM equipped with additional affordances–such as code execution and knowledge bases–that can perform self-directed actions and interact with digital environments. In this paper, we survey the evaluation of LLM assistants and agents for data science. We find (1) a dominant focus on a small subset of goal-oriented activities, largely ignoring data management and exploratory activities; (2) a concentration on pure assistance or fully autonomous agents, without considering intermediate levels of human-AI collaboration; and (3) an emphasis on human substitution, therefore neglecting the possibility of higher levels of automation thanks to task transformation.

arxiv情報

著者 Irene Testini,José Hernández-Orallo,Lorenzo Pacchiardi
発行日 2025-06-10 13:47:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク