AutoPrep: Natural Language Question-Aware Data Preparation with a Multi-Agent Framework

要約

表に関する自然言語 (NL) の質問に答えることは、表形式質問応答 (TQA) として知られており、ユーザーが構造化データから迅速かつ効率的に有意義な洞察を抽出できるため、非常に重要です。これにより、人間の言語と機械可読形式の間のギャップを効果的に埋めることができます。
これらのテーブルの多くは Web ソースまたは現実世界のシナリオから派生しているため、正確な応答を保証するには細心の注意を払ったデータ準備 (またはデータ準備) が必要です。
ただし、NL 質問用にこのようなテーブルを準備すると、従来のデータ準備を超えた新しい要件が導入されます。
この質問を意識したデータの準備には、特定の質問に合わせた列の拡張やフィルタリング、質問を意識した値の正規化や変換などの特定のタスクが含まれており、この文脈ではより微妙なアプローチの必要性が強調されています。
上記の各タスクは固有であるため、単一のモデル (またはエージェント) がすべてのシナリオで効果的に実行できるとは限りません。
このペーパーでは、AutoPrep を提案します。AutoPrep は、大規模言語モデル (LLM) ベースのマルチエージェント フレームワークであり、複数のエージェントの強みを活用し、それぞれが特定のタイプのデータ準備に特化し、より正確でコンテキストに関連した応答を保証します。
テーブルに対する NL の質問が与えられると、AutoPrep は 3 つの主要なコンポーネントを通じてデータの準備を実行します。
プランナー: 一連の高レベルの操作の概要を示す論理計画を決定します。
プログラマ: 対応する低レベル コードを生成することにより、この論理計画を物理計画に変換します。
Executor: 生成されたコードを実行してテーブルを処理します。
このマルチエージェント フレームワークをサポートするために、高レベルの操作提案のための新しい句連鎖推論メカニズムと、低レベル コード生成のためのツール拡張メソッドを設計します。

要約(オリジナル)

Answering natural language (NL) questions about tables, known as Tabular Question Answering (TQA), is crucial because it allows users to quickly and efficiently extract meaningful insights from structured data, effectively bridging the gap between human language and machine-readable formats. Many of these tables are derived from web sources or real-world scenarios, which require meticulous data preparation (or data prep) to ensure accurate responses. However, preparing such tables for NL questions introduces new requirements that extend beyond traditional data preparation. This question-aware data preparation involves specific tasks such as column augmentation and filtering tailored to particular questions, as well as question-aware value normalization or conversion, highlighting the need for a more nuanced approach in this context. Because each of the above tasks is unique, a single model (or agent) may not perform effectively across all scenarios. In this paper, we propose AutoPrep, a large language model (LLM)-based multi-agent framework that leverages the strengths of multiple agents, each specialized in a certain type of data prep, ensuring more accurate and contextually relevant responses. Given an NL question over a table, AutoPrep performs data prep through three key components. Planner: Determines a logical plan, outlining a sequence of high-level operations. Programmer: Translates this logical plan into a physical plan by generating the corresponding low-level code. Executor: Executes the generated code to process the table. To support this multi-agent framework, we design a novel Chain-of-Clauses reasoning mechanism for high-level operation suggestion, and a tool-augmented method for low-level code generation.

arxiv情報

著者 Meihao Fan,Ju Fan,Nan Tang,Lei Cao,Guoliang Li,Xiaoyong Du
発行日 2025-01-02 01:11:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク