Jellyfish: A Large Language Model for Data Preprocessing

要約

このペーパーでは、DP のユニバーサル タスク ソルバーとしてオープンソース LLM である Jellyfish を紹介します。
Llama 2 13B モデルに基づいて構築された Jellyfish は、エラー検出、データ代入、スキーマ マッチング、エンティティ マッチングなどのいくつかの典型的な DP タスクのデータセットを使用して命令調整されており、他のタスクに汎用性を提供します。
驚くべきことに、Jellyfish は 130 億のパラメータを備えたローカルの単一の低価格 GPU で動作し、データのセキュリティを確保し、さらなるチューニングを可能にします。
自然言語を理解する能力に優れているため、ユーザーは DP タスクの指示を手動で作成できます。
事前知識に大きく依存する多くの既存の手法とは異なり、Jellyfish はチューニング プロセス中にドメイン知識を取得し、推論中にオプションの知識注入を統合します。
Jellyfish の特徴的な機能は、出力の決定を説明するインタープリターです。
Jellyfish を構築するために、一連のプレチューニングおよび DP チューニング技術を開発します。
Jellyfish には、生データをモデル プロンプトに自動的に変換するインスタンス シリアライザーと、オプションでタスクおよびデータセット固有のナレッジを導入して DP パフォーマンスを向上させるナレッジ インジェクターが装備されています。
さまざまな実際のデータセットを使用した Jellyfish の評価では、最先端の手法と比較したその競争力と、目に見えないタスクに対する強力な一般化可能性が示されています。
Jellyfish のパフォーマンスは GPT シリーズ モデルに匹敵し、そのインタプリタは GPT-3.5 と比較して強化された推論機能を提供します。
さらに、私たちの評価では、Jellyfish の構築に使用された技術の有効性が強調されています。
私たちのモデルは、Hugging Face: https://huggingface.co/NECOUDBFM/Jellyfish で入手できます。

要約(オリジナル)

In this paper, we present Jellyfish, an open-source LLM as a universal task solver for DP. Built on the Llama 2 13B model, Jellyfish is instruction-tuned with the datasets of several typical DP tasks including error detection, data imputation, schema matching, and entity matching, and delivers generalizability to other tasks. Remarkably, Jellyfish can operate on a local, single, and low-priced GPU with its 13 billion parameters, ensuring data security and enabling further tuning. Its proficiency in understanding natural language allows users to manually craft instructions for DP tasks. Unlike many existing methods that heavily rely on prior knowledge, Jellyfish acquires domain knowledge during its tuning process and integrates optional knowledge injection during inference. A distinctive feature of Jellyfish is its interpreter, which elucidates its output decisions. To construct Jellyfish, we develop a series of pre-tuning and DP-tuning techniques. Jellyfish is equipped with an instance serializer, which automatically translates raw data into model prompts, and a knowledge injector, which optionally introduces task- and dataset-specific knowledge to enhance DP performance. Our evaluation of Jellyfish, using a range of real datasets, shows its competitiveness compared to state-of-the-art methods and its strong generalizability to unseen tasks. Jellyfish’s performance rivals that of GPT series models, and its interpreter offers enhanced reasoning capabilities compared to GPT-3.5. Furthermore, our evaluation highlights the effectiveness of the techniques employed in constructing Jellyfish. Our model is available at Hugging Face: https://huggingface.co/NECOUDBFM/Jellyfish .

arxiv情報

著者 Haochen Zhang,Yuyang Dong,Chuan Xiao,Masafumi Oyamada
発行日 2023-12-05 18:02:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.DB, cs.LG パーマリンク