要約
スプレッドシートはWorld Wide Webの至る所で利用されており、様々な領域で作業効率を向上させる上で重要な役割を果たしている。大規模言語モデル(Large Language Model: LLM)は、最近、スプレッドシートの自動操作のために試みられているが、推論上の課題が存在する複雑で現実的なタスク(例えば、多段階推論や曖昧な要求を伴う長ホライズン操作)ではまだ研究されていない。実世界の要求とのギャップを埋めるために、我々はSheetRMを導入する。SheetRMは、現実の課題によって引き起こされる推論依存の操作を伴う、長ホライズンかつ多カテゴリのタスクを特徴とするベンチマークである。上記の課題を軽減するために、我々はさらに、LLMの力を利用した新しい自律エージェントであるSheetAgentを提案する。SheetAgentは3つの協調モジュールから構成される:Planner、Informer、Retrieverの3つの協調モジュールから構成され、反復的なタスク推論とリフレクションにより、人間のインタラクションなしに、スプレッドシート上で高度な推論と正確な操作の両方を達成する。広範な実験により、SheetAgentは複数のベンチマークでベースラインよりも20~40%の合格率向上を実現し、スプレッドシート操作の精度を高め、優れたテーブル推論能力を実証しています。詳細とビジュアライゼーションは、プロジェクトのウェブサイトhttps://sheetagent.github.io/。データセットとソースコードはhttps://anonymous.4open.science/r/SheetAgent。
要約(オリジナル)
Spreadsheets are ubiquitous across the World Wide Web, playing a critical role in enhancing work efficiency across various domains. Large language model (LLM) has been recently attempted for automatic spreadsheet manipulation but has not yet been investigated in complicated and realistic tasks where reasoning challenges exist (e.g., long horizon manipulation with multi-step reasoning and ambiguous requirements). To bridge the gap with the real-world requirements, we introduce SheetRM, a benchmark featuring long-horizon and multi-category tasks with reasoning-dependent manipulation caused by real-life challenges. To mitigate the above challenges, we further propose SheetAgent, a novel autonomous agent that utilizes the power of LLMs. SheetAgent consists of three collaborative modules: Planner, Informer, and Retriever, achieving both advanced reasoning and accurate manipulation over spreadsheets without human interaction through iterative task reasoning and reflection. Extensive experiments demonstrate that SheetAgent delivers 20–40\% pass rate improvements on multiple benchmarks over baselines, achieving enhanced precision in spreadsheet manipulation and demonstrating superior table reasoning abilities. More details and visualizations are available at the project website: https://sheetagent.github.io/. The datasets and source code are available at https://anonymous.4open.science/r/SheetAgent.
arxiv情報
著者 | Yibin Chen,Yifu Yuan,Zeyu Zhang,Yan Zheng,Jinyi Liu,Fei Ni,Jianye Hao,Hangyu Mao,Fuzheng Zhang |
発行日 | 2025-03-03 06:56:29+00:00 |
arxivサイト | arxiv_id(pdf) |