Data-Copilot: Bridging Billions of Data and Humans with Autonomous Workflow

要約

金融、気象学、エネルギーなどの業界では、毎日膨大な量のデータが生成されます。
このデータを効率的に管理、処理、表示するには専門知識が必要であり、多くの場合、退屈で繰り返しの作業が必要です。
大規模言語モデル (LLM) を活用して自動化されたワークフローを開発することは、非常に有望なソリューションとなります。
ただし、LLM は複雑な数値計算やテーブル操作の処理に熟達しておらず、限られたコンテキスト バジェットにも制約されます。
これを踏まえ、人間の多様な要求に応じた大量データのクエリ、処理、可視化を自律的に行​​うデータ分析エージェント「Data-Copilot」を提案します。
進歩は 2 つあります。1 つは、人間のリクエストを受け取り、大量のデータを処理するための仲介者としてコードを生成するコード中心のエージェントであり、大規模なデータ処理タスクに対して非常に柔軟です。
第 2 に、Data-Copilot には事前にデータ探索フェーズが含まれており、リアルタイム応答のためのより汎用的でエラーのないインターフェイスを設計する方法を探索します。
具体的には、データ ソースを積極的に探索し、多数の共通リクエストを発見し、それらを毎日の呼び出しのために多くのユニバーサル インターフェイスに抽象化します。
リアルタイム リクエストでデプロイされる場合、Data-Copilot はこれらの事前設計されたインターフェイスを呼び出すだけで済み、生データをユーザーの意図に最も適合する視覚化された出力 (グラフ、表など) に変換します。
コードを最初から生成する場合と比較して、これらの事前設計されコンパイラで検証されたインターフェイスを呼び出すことで、リアルタイム リクエスト中のエラーを大幅に減らすことができます。
さらに、インターフェイスのワークフローはコードよりも効率的で、解釈可能性が高くなります。
私たちは株式、資金、ニュースなどの中国の膨大な金融データを含む Data-Copilot をオープンソース化し、有望なアプリケーションの見通しを実証しました。

要約(オリジナル)

Industries such as finance, meteorology, and energy generate vast amounts of data daily. Efficiently managing, processing, and displaying this data requires specialized expertise and is often tedious and repetitive. Leveraging large language models (LLMs) to develop an automated workflow presents a highly promising solution. However, LLMs are not adept at handling complex numerical computations and table manipulations and are also constrained by a limited context budget. Based on this, we propose Data-Copilot, a data analysis agent that autonomously performs querying, processing, and visualization of massive data tailored to diverse human requests. The advancements are twofold: First, it is a code-centric agent that receives human requests and generates code as an intermediary to handle massive data, which is quite flexible for large-scale data processing tasks. Second, Data-Copilot involves a data exploration phase in advance, which explores how to design more universal and error-free interfaces for real-time response. Specifically, it actively explores data sources, discovers numerous common requests, and abstracts them into many universal interfaces for daily invocation. When deployed in real-time requests, Data-Copilot only needs to invoke these pre-designed interfaces, transforming raw data into visualized outputs (e.g., charts, tables) that best match the user’s intent. Compared to generating code from scratch, invoking these pre-designed and compiler-validated interfaces can significantly reduce errors during real-time requests. Additionally, interface workflows are more efficient and offer greater interpretability than code. We open-sourced Data-Copilot with massive Chinese financial data, such as stocks, funds, and news, demonstrating promising application prospects.

arxiv情報

著者 Wenqi Zhang,Yongliang Shen,Weiming Lu,Yueting Zhuang
発行日 2024-05-24 16:35:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CE, cs.CL パーマリンク