要約
効果的なデータ操作方法を設計することは、データレイクにおける長年の課題です。
ルールや機械学習モデルに依存する従来の方法では、データ収集のトレーニングとモデルの調整に多大な人間の労力が必要です。
最近の手法では、大規模言語モデル (LLM) を適用して、複数のデータ操作タスクを解決します。
これらはパフォーマンスの面で輝かしい利点を示しますが、依然としてそれぞれの特定のタスクに合わせてカスタマイズされた設計が必要です。
これには非常にコストがかかり、ビッグ データ レイク プラットフォームの要件に追いつくことができません。
このペーパーでは、NLP タスクにおける LLM のクロスタスク汎用性に着想を得て、データ操作タスクに取り組むための自動かつ一般的なソリューションを設計するための最初のステップを開きます。
私たちは、LLM を使用してデータ操作タスクを処理するための新しいパラダイムを確立する統合フレームワークである UniDM を提案します。
UniDM は、多数のデータ操作タスクを統一された形式で形式化し、各タスクを解決するための 3 つの主要な一般的な手順を抽象化します。
私たちは、LLM が証拠や事実情報を含む可能性のあるデータをデータレイクから取得できるようにする自動コンテキスト取得を開発します。
ステップごとに、LLM が高品質の結果を生み出すように導くための効果的なプロンプトを設計します。
さまざまなベンチマークでの総合的な評価により、当社の UniDM は、さまざまなデータ操作タスクにおいて優れた汎用性と最先端のパフォーマンスを示します。
要約(オリジナル)
Designing effective data manipulation methods is a long standing problem in data lakes. Traditional methods, which rely on rules or machine learning models, require extensive human efforts on training data collection and tuning models. Recent methods apply Large Language Models (LLMs) to resolve multiple data manipulation tasks. They exhibit bright benefits in terms of performance but still require customized designs to fit each specific task. This is very costly and can not catch up with the requirements of big data lake platforms. In this paper, inspired by the cross-task generality of LLMs on NLP tasks, we pave the first step to design an automatic and general solution to tackle with data manipulation tasks. We propose UniDM, a unified framework which establishes a new paradigm to process data manipulation tasks using LLMs. UniDM formalizes a number of data manipulation tasks in a unified form and abstracts three main general steps to solve each task. We develop an automatic context retrieval to allow the LLMs to retrieve data from data lakes, potentially containing evidence and factual information. For each step, we design effective prompts to guide LLMs to produce high quality results. By our comprehensive evaluation on a variety of benchmarks, our UniDM exhibits great generality and state-of-the-art performance on a wide variety of data manipulation tasks.
arxiv情報
著者 | Yichen Qian,Yongyi He,Rong Zhu,Jintao Huang,Zhijian Ma,Haibin Wang,Yaohua Wang,Xiuyu Sun,Defu Lian,Bolin Ding,Jingren Zhou |
発行日 | 2024-05-10 14:44:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google