AutoPrep: Natural Language Question-Aware Data Preparation with a Multi-Agent Framework

要約

表形式質問応答(TQA)として知られる、表に関する自然言語(NL)の質問に答えることは、構造化されたデータから意味のある洞察を迅速かつ効率的に抽出し、人間の言語と機械可読形式のギャップを効果的に埋めることができるため、非常に重要である。これらのテーブルの多くは、ウェブ・ソースや実世界のシナリオに由来するものであり、正確な回答を保証するためには綿密なデータ準備(データ・プレパレーション)が必要である。しかし、NLの質問のためにこのようなテーブルを準備することは、従来のデータ準備を超える新しい要件を導入します。この質問を意識したデータ準備には、特定の質問に合わせた列の導出やフィルタリング、質問を意識した値の正規化や変換などの特定のタスクが含まれ、このコンテキストではよりニュアンスのあるアプローチの必要性が強調されます。上記のタスクはそれぞれユニークであるため、単一のモデル(またはエージェント)では、すべてのシナリオで効果的に機能しない可能性があります。本論文では、より正確で文脈に即した応答を保証するために、それぞれが特定のタイプのデータ準備に特化した複数のエージェントの強みを活用する、大規模言語モデル(LLM)ベースのマルチエージェントフレームワークであるAutoPrepを提案する。AutoPrepは、テーブル上のNL質問が与えられた場合、3つの主要コンポーネントを通してデータプリパレーションを実行する。プランナー:論理的なプランを決定し、ハイレベルな操作のシーケンスの概要を示します。プログラマー:対応する低レベルコードを生成することで、この論理プランを物理プランに変換します。エクゼキュータ:生成されたコードを実行してテーブルを処理する。このマルチエージェントフレームワークをサポートするために、高レベル操作提案のための新しいChain-of-Clauses推論機構と、低レベルコード生成のためのツール支援手法を設計する。

要約(オリジナル)

Answering natural language (NL) questions about tables, known as Tabular Question Answering (TQA), is crucial because it allows users to quickly and efficiently extract meaningful insights from structured data, effectively bridging the gap between human language and machine-readable formats. Many of these tables are derived from web sources or real-world scenarios, which require meticulous data preparation (or data prep) to ensure accurate responses. However, preparing such tables for NL questions introduces new requirements that extend beyond traditional data preparation. This question-aware data preparation involves specific tasks such as column derivation and filtering tailored to particular questions, as well as question-aware value normalization or conversion, highlighting the need for a more nuanced approach in this context. Because each of the above tasks is unique, a single model (or agent) may not perform effectively across all scenarios. In this paper, we propose AutoPrep, a large language model (LLM)-based multi-agent framework that leverages the strengths of multiple agents, each specialized in a certain type of data prep, ensuring more accurate and contextually relevant responses. Given an NL question over a table, AutoPrep performs data prep through three key components. Planner: Determines a logical plan, outlining a sequence of high-level operations. Programmer: Translates this logical plan into a physical plan by generating the corresponding low-level code. Executor: Executes the generated code to process the table. To support this multi-agent framework, we design a novel Chain-of-Clauses reasoning mechanism for high-level operation suggestion, and a tool-augmented method for low-level code generation…

arxiv情報

著者 Meihao Fan,Ju Fan,Nan Tang,Lei Cao,Guoliang Li,Xiaoyong Du
発行日 2025-05-02 00:11:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL パーマリンク